Disallow nel robots.txt: guida pratica

Hai configurato il tuo robots.txt. Hai scritto le direttive. Hai salvato il file. Ma sai davvero cosa sta leggendo Google ogni volta che passa sul tuo sito? Non è una domanda trabocchetto: è la differenza tra un sito ben gestito e uno che blocca accidentalmente le pagine che vorrebbe mostrare.

Il robots.txt è uno di quei file che sembrano semplici finché non causano un problema serio. Un Disallow scritto male su una cartella sbagliata può escludere dalla scansione interi contenuti, sezioni prodotto o script critici, senza che il sito mostri alcun errore visibile.

Ho visto siti tecnicamente curati, con buona struttura e contenuti ottimizzati, perdere visibilità organica per un robots.txt configurato frettolosamente durante una migrazione. Il crawler non segnala “attenzione, stai bloccando qualcosa di importante”: smette semplicemente di passare.

In questo articolo trovi come funziona la direttiva Disallow, quali errori evitare e in quali situazioni ha senso usarla davvero.

Cosa significa Disallow nel robots.txt

Disallow è la direttiva che dice ai crawler quali URL non devono essere scansionati. Quando Googlebot visita un sito, legge prima il robots.txt per capire dove può andare e dove no.

Non è un blocco tecnico: è un’istruzione che i crawler rispettosi delle specifiche scelgono di seguire. Google la rispetta. Ma non è una garanzia di privacy, e non impedisce l’indicizzazione di una pagina se questa riceve link esterni. Sono due cose distinte, e confonderle è uno degli errori più costosi in ambito SEO tecnico.

Come funziona il file robots.txt e le sue direttive

Il file robots.txt si trova sempre nella root del dominio, all’indirizzo tuodominio.it/robots.txt. La struttura è composta da blocchi, ognuno dei quali inizia con una direttiva User-agent che specifica a quale crawler si rivolge.

Le direttive principali sono tre:

  • User-agent: identifica il crawler a cui si applicano le regole del blocco (es. * per tutti, Googlebot per Google).
  • Disallow: indica gli URL o le cartelle che il crawler non deve scansionare.
  • Allow: specifica gli URL accessibili anche all’interno di una sezione bloccata da Disallow.

Sintassi corretta della direttiva Disallow

La sintassi è più rigida di quanto sembri. Un errore di slash o uno spazio di troppo può invalidare l’intera direttiva. Ecco i casi d’uso più comuni:

# Bloccare un singolo URL
User-agent: *
Disallow: /pagina-privata/

# Bloccare un'intera cartella
User-agent: *
Disallow: /admin/

# Bloccare tutto il sito (usare con estrema cautela)
User-agent: *
Disallow: /

# Bloccare solo Googlebot da una sezione specifica
User-agent: Googlebot
Disallow: /staging/

Ogni percorso deve iniziare con /. Se ometti lo slash, la direttiva non viene riconosciuta correttamente da tutti i crawler. I commenti si inseriscono con # e vengono ignorati dai motori.

Disallow all: bloccare tutti i crawler

Il caso robots.txt Disallow all si ottiene con la combinazione User-agent: * e Disallow: /. Questa configurazione dice a tutti i crawler di non scansionare nulla del sito.

Si usa in due situazioni legittime: un ambiente di staging che non deve essere indicizzato, oppure un sito in fase di sviluppo non ancora pronto per essere pubblico.

Fuori da questi casi, è una delle configurazioni più pericolose che puoi avere in produzione. Un sito con Disallow: / attivo non compare nelle SERP, perde posizionamenti e può impiegare settimane a recuperare visibilità dopo la correzione. È il primo controllo da fare su qualsiasi sito nuovo che ti viene affidato.

Differenza tra Disallow e Allow nel robots.txt

Allow e Disallow lavorano insieme: Disallow esclude, Allow re-include. La direttiva Allow permette la scansione di URL specifici anche all’interno di una cartella bloccata da Disallow.

Un esempio concreto: hai bloccato tutta la cartella /account/, ma vuoi che Google possa accedere alla pagina /account/registrati/ perché è una pagina pubblica e indicizzabile.

User-agent: *
Disallow: /account/
Allow: /account/registrati/

In caso di conflitto tra Allow e Disallow applicati allo stesso URL, Google segue la regola più specifica. Questo è un comportamento documentato nelle specifiche ufficiali: la direttiva più lunga vince. Se hai Disallow: /account/ e Allow: /account/registrati/, il secondo ha la precedenza perché è più specifico.

Conoscere questa precedenza evita configurazioni contraddittorie che si annullano a vicenda senza che te ne accorga.

Errori comuni con Disallow e come evitarli

Gli errori nel robots.txt raramente generano messaggi espliciti. Si manifestano come cali di traffico, pagine scomparse dall’indice o crawl budget sprecato. Questi sono quelli che vedo più spesso:

  • Blocco accidentale di CSS e JavaScript: se blocchi cartelle come /wp-content/ o /assets/, Google non riesce a renderizzare le pagine correttamente e può penalizzarne la valutazione. I file di stile e script devono essere accessibili al crawler.
  • Uso di Disallow per de-indicizzare: Disallow blocca la scansione, non l’indicizzazione. Se una pagina è già nell’indice o riceve link, può continuare a comparire nelle SERP anche con Disallow attivo. Per rimuoverla serve il tag noindex nel codice della pagina.
  • Wildcard mal configurate: il carattere * nelle direttive Disallow non funziona come nelle espressioni regolari standard. Una wildcard pensata per bloccare tutti i parametri URL può bloccare anche URL che non volevi toccare.
  • Disallow: / attivo in produzione: è il caso più grave, e succede più spesso di quanto si pensi dopo migrazioni o lanci frettolosi. Sempre il primo controllo da fare.

Come verificare che Disallow funzioni correttamente

Prima di modificare il robots.txt in produzione, è essenziale testarlo. L’ordine che seguo è:

  1. Google Search Console, strumento Tester robots.txt: incolla l’URL che vuoi verificare e il tool ti dice se viene bloccato o consentito. Puoi simulare modifiche prima di applicarle.
  2. Screaming Frog: nella sezione Configuration > Robots.txt puoi caricare il file e vedere in tempo reale quali URL vengono bloccati durante la scansione. Utile su siti grandi con molte direttive.
  3. Accesso diretto: visita tuodominio.it/robots.txt dal browser per verificare che il file pubblicato corrisponda a quello che hai modificato e non ci siano versioni in cache.
  4. Log di crawl: se hai accesso ai log del server, puoi vedere quali URL Googlebot ha smesso di visitare dopo una modifica. È il metodo più preciso, specialmente dopo migrazioni.

Quando usare Disallow: casi d’uso reali per un sito

La domanda giusta non è “cosa posso bloccare?” ma “cosa non ha senso far scansionare?”.

Bloccare selettivamente aiuta a ottimizzare il crawl budget, cioè il numero di pagine che Google scansiona in un determinato intervallo di tempo. Su siti grandi, questo fa la differenza tra pagine importanti indicizzate rapidamente e pagine che attendono settimane.

I casi in cui Disallow ha senso:

  • Area amministrativa: /admin/, /wp-admin/, /dashboard/ non devono mai essere scansionabili. Non contengono contenuto utile per i risultati di ricerca e rappresentano un rischio di sicurezza se esposte.
  • Pagine duplicate o di sistema: pagine generate da parametri URL come ?sort=, ?page=, ?sessionid= possono moltiplicare le varianti della stessa pagina e sprecare crawl budget. Bloccarne alcune ha senso, ma valuta caso per caso.
  • Ambienti di staging: se hai un sottodominio o una sottocartella di test, deve essere bloccata integralmente prima del go-live, altrimenti rischi contenuti duplicati nell’indice.
  • File interni non destinati al pubblico: PDF interni, archivi, export CSV. Se non devono essere trovati dagli utenti, non devono essere trovati dai crawler.

Ho lavorato con un e-commerce B2B nel settore industriale che aveva accumulato centinaia di URL con parametri di filtro, tutti scansionati e alcuni parzialmente indicizzati. Dopo aver configurato correttamente le direttive Disallow sui parametri non significativi e aver consolidato gli URL canonici, il crawl budget si è concentrato sulle pagine prodotto prioritarie. Il risultato nel semestre successivo: +42% di traffico organico sulle pagine che contavano davvero.

Che significa Allow e qual è la differenza con Disallow?

Allow permette la scansione di URL specifici anche sotto una cartella bloccata da Disallow. È la valvola di controllo che completa la direttiva di esclusione.

Senza Allow, Disallow è tutto o niente su una cartella. Con Allow puoi costruire regole più precise: blocca l’intera sezione /prodotti-archiviati/ ma consenti l’accesso a /prodotti-archiviati/bestseller/ perché quella pagina ha ancora valore SEO.

User-agent: *
Disallow: /prodotti-archiviati/
Allow: /prodotti-archiviati/bestseller/

Cosa vuol dire “restricted” in un contesto robots.txt?

“Restricted” non è una direttiva ufficiale del protocollo robots.txt: indica che l’accesso a una risorsa è limitato. In ambito SEO, il concetto è analogo a quello espresso da Disallow.

Il termine compare spesso nei log di crawl, nei messaggi di Google Search Console o in tool di terze parti per indicare che un URL è bloccato dal robots.txt. Se lo vedi in un report, stai leggendo la traduzione del comportamento di una direttiva Disallow attiva su quell’URL. Non è un errore da risolvere in sé: è un’informazione su cosa sta succedendo. La domanda da farti è se quel blocco è intenzionale.

Cosa significa “invalid” in un file robots.txt?

Una direttiva invalid è una riga che il crawler non riesce a interpretare perché la sintassi è errata, il formato non è supportato o manca un elemento obbligatorio come lo slash iniziale nel percorso.

Google, in questi casi, non si blocca: ignora la riga e prosegue con le successive. Il rischio è che tu pensi che una direttiva stia funzionando, mentre Google la sta semplicemente saltando. Nessun errore visibile, nessun avviso automatico, solo un comportamento diverso da quello che ti aspetti.

Gli errori più comuni che producono direttive invalid: mancanza dello spazio dopo i due punti (Disallow:/admin/ invece di Disallow: /admin/), caratteri non ASCII, percorsi senza slash iniziale. Il tester di Search Console segnala queste anomalie prima che diventino un problema.

Hai dubbi sul tuo robots.txt o temi di bloccare pagine importanti? Contattami per un’analisi tecnica del tuo sito.

Se quello che hai letto ti risuona, fammi sapere su cosa stai lavorando.

Contattami







    Autore

    Adriana Longhitanohttps://adrianalonghitano.it

    Adriana Longhitano

    SEO Specialist con oltre 8 anni di esperienza. Progetto strategie di visibilità organica per aziende e professionisti che vogliono essere trovati — su Google e nei sistemi AI. Specializzata in GEO (Generative Engine Optimization), SEO tecnica e architettura dell’informazione.

    Adriana Longhitano
    Torna in alto

    Se quello che hai letto ti risuona, allora ha senso parlarne.

    Contattami