Indicizzazione delle pagine, guida completa a tutti gli stati di Google Search Console

Guida ai messaggi di Google Search Console

Google Search Console è uno strumento gratuito di Google che permette di analizzare come il proprio sito web venga trovato e cliccato nei risultati di ricerca di Google.

Insieme a Google Analytics, Google Search Console è fondamentale per svolgere delle analisi SEO in grado di individuare se il sito sta effettivamente accrescendo e migliorando il suo posizionamento oppure se esso sta diminuendo.

Nonostante sia uno strumento molto potente, sono tante le funzionalità ed i messaggi che ci vengono forniti all’interno dello strumento.

In questa guida oggi andremo quindi ad analizzare tutti gli avvisi di Google Search Console nella sezione dedicata all’indicizzazione delle pagine per poter meglio comprendere cosa succede dietro le quinte.

Pagina con reindirizzamento

L’avviso sta ad indicare che la pagina presenta un reindirizzamento verso un’altra pagina. In questo caso si tratta nella maggior parte dei casi di uno status code 301 o 302. È necessario quindi indagare e sostituire i link interni verso la pagina di destinazione finale per evitare di disperdere crawl budget.

Bloccata a causa di un accesso non autorizzato (403)

Un contenuto con status code “403 Forbidden” indica che la pagina effettivamente esiste ma il motore di ricerca Google non ne ha accesso per mancanza di privilegi. Questo avviene quando l’indirizzo contiene un contenuto protetto (ad esempio un contenuto per chi si registra al sito web).

Non trovata (404)

Lo status code 404 indica una pagina che non è stata trovata sul sito web. Questa pagina può essere effettivamente esistita in passato e poi rimossa oppure non essere mai esistita (come nei casi in cui un link venga scritto in modo errato).

Erroneamente il codice 404 viene anche chiamato “Errore 404”. Tuttavia è normale che un sito disponga di pagine mancanti soprattutto quando contenuti vecchi non più utili vengono rimossi. È necessario quindi analizzare se la pagina è stata rimossa intenzionalmente ed in caso correggere i link interni al sito web.

Google tratta gli status codes 404 e 410 nello stesso modo. Per questo motivo le pagine 410 verranno comunque incluse sotto la dicitura “Non trovata (404)”.

Soft 404

Il soft 404 va ad indicare che la pagina web effettivamente esiste, il server ha risposto uno status code 200 ma il contenuto è scarno se non nullo tanto che potrebbe effettivamente essere considerata una pagina 404.

I soft 404 avvengono spesso per pagine di servizio create dai CMS che non contengono alcun contenuto utile all’utente o alcune volte sono addirittura vuote.

Per le pagine Soft 404 sarebbe opportuno nella maggior parte dei casi inserire un noindex.

Errore del server (5xx)

Quando Google non riesce a scansionare la pagina per un errore del server (ovvero che inizia con lo status code 5), su Search Console vediamo un messaggio di questo tipo. Il disservizio potrebbe essere momentaneo nel momento in cui Google ha cercato di scansionare la pagina oppure persistente se il server ha problemi. In questo caso è necessario verificare che gli URL siano effettivamente funzionanti e se si, attendere.

Pagina alternativa con tag canonical appropriato

Questo messaggio sta ad indicare che la pagina non è stata indicizzata da parte di Google poiché è stata trovata un’altra pagina canonica sostitutiva. 

Pagina duplicata senza URL canonico selezionato dall’utente

Questo messaggio indica che la pagina web è stata scansionata e ritenuta il duplicato di un’altra pagina, senza che però il tag canonical sia stato indicato dal sito web (o comunque ignorandolo).

Questo messaggio si presenta spesso per i contenuti non HTML come i file PDF oppure per pagine generate in automatico dai CMS.

Esclusa in base al tag “noindex”

Questo messaggio avvisa il webmaster che la pagina non viene indicizzata per via di un tag o un’intestazione noindex, una direttiva che indica ai motori di ricerca di non indicizzare quella pagina. Se non sai bene cosa sia il noindex ti consiglio di leggere la guida specifica sul noindex.

Bloccata da robots.txt

Quando a Google viene impedito l’accesso ad una pagina attraverso il file robots.txt, su Google Search Console vedremo un messaggio di questo tipo.

Il file robots.txt può essere trovato scrivendo www.miodominio.it/robots.txt

Rilevata, ma attualmente non indicizzata

Questo messaggio indica che Google ha rilevato la pagina ma non ha ancora proseguito con la scansione. Solitamente questo messaggio è temporaneo e Google provvederà a breve a scansionarla per poi indicizzarla oppure per passarla allo stato scansionata ma non indicizzata.

Pagina scansionata, ma attualmente non indicizzata

Questo messaggio indica che Google ha trovato e scansionato la pagina ma che, al momento, ha deciso di non farla comparire nei risultati di ricerca. Solitamente alcune pagine potrebbero rimanere in questo stato per alcuni giorni. Se però lo stato persiste, nella maggior parte dei casi questo è un sintomo di mancanza di qualità della pagina, ritenuta non abbastanza utile per l’utente.

Per approfondire:

Classe 1996, nato con la passione per l’informatica e cresciuto con la curiosità per le nuove tecnologie, mi sono laureato in Comunicazione pubblica e d’impresa. Dal 2021 lavoro in Big Digital e mi occupo dello sviluppo di siti in WordPress e della strategia SEO per i clienti dell’agenzia.