Cosa sono i contenuti duplicati SEO
I contenuti duplicati SEO, come suggerisce il nome, sono dei contenuti che presentano delle somiglianze totali o parziali con altri contenuti e si verificano principalmente quando il sito inizia ad aumentare le proprie dimensioni.
Immaginiamo di avere sul nostro sito due articoli identici come questo qui che stai leggendo. In un caso simile si tratterebbe di un errore piuttosto grossolano, l’articolo è stato clonato e pubblicato per ben due volte. Tuttavia per i motori di ricerca questo problema non è scontato: Google durante la scansione del sito si troverà due articoli uguali ma con due URL diversi (ex /contenuti-duplicati-seo/ e /contenuti-duplicati-seo-2/). In questo caso non sa quale indicizzare e deve utilizzare un algoritmo di riserva per scegliere quale tra i due sia quello più adatto. Cos’è successo quindi? Per colpa di un errore banale Google ha avuto la necessità di utilizzare il doppio delle risorse per poter analizzare lo stesso contenuto.
Abbiamo analizzato un caso piuttosto semplice e facile da comprendere ma proviamo a complicare la situazione. Immaginiamo di avere una serie di pagine sul nostro sito con pochissimo testo. Tutte le pagine presenteranno un header ed un footer (struttura del sito) identica. Le pagine quindi si differenziano giusto per qualche riga di testo. Ecco che quindi Google potrebbe pensare di avere a che fare con dei contenuti quasi duplicati. In una situazione del genere difficilmente il nostro sito riuscirà a posizionarsi prima degli altri nei risultati di ricerca.
Contenuti duplicati interni e contenuti duplicati esterni
Nella SEO possiamo distinguere diversi casi di contenuti duplicati.
I contenuti duplicati sono interni quando all’interno dello stesso sito sono presenti più pagine identiche o che presentano delle similitudini più o meno marcate. I casi di esempio prima citati infatti sono entrambi casi di contenuti duplicati SEO interni.
I contenuti duplicati sono invece esterni quando lo stesso contenuto è disponibile su due siti diversi. Ci sono diversi casi in cui capitano situazioni simili. In passato erano molto diffusi gli aggregatori, interi siti che eseguivano la scansione del web per creare una copia della pagina ed avere quindi un archivio di materiale non proprio. Fortunatamente al giorno d’oggi, anche se gli aggregatori esistono ancora, Google è in grado di rilevarli e punirli facendo sì che non guadagnino alcun posizionamento.
Una situazione grave di contenuto duplicato esterno si verifica quando un’azienda o comunque un soggetto ha a disposizione due siti. Immaginiamo un’ipotetica azienda che produce tavoli in legno con i siti tavoliniinlegno.it e tuttoinlegno.it. Senza conoscenze SEO adeguate, il proprietario dei due siti potrebbe pensare che sia una buona idea scrivere un articolo sui diversi tipi di legno e pubblicarlo, identico su entrambi i siti così da ottenere visibilità su entrambi. Niente di più sbagliato. Quando Google infatti scoprirà entrambi gli articoli, vedrà che il contenuto della pagina è pressoché identico e ignorerà uno dei due siti indicizzando l’altro e non permettendoci di scegliere su quale dei due l’articolo possa avere un suo perché strategico.
Come evitare i contenuti duplicati SEO
I contenuti duplicati SEO possono essere evitati in tre modi:
- Per evitare i contenuti duplicati interni, è necessario impegnarsi per far si che le pagine del sito siano diverse tra loro. Può sembrare un consiglio banale ma in realtà è il passo più importante. Quando non è possibile avere pagine diverse tra loro (Ex. e-commerce che vende molti prodotti ma alcuni sono molto simili tra loro) bisogna scegliere una pagina che prevalga sulle altre. In quel caso bisogna indicare, nella pagina “meno importante” o che scegliamo come “duplicata”, il tag seo “canonical”. Ne parlo più in basso.
- Per i contenuti duplicati esterni, il problema si verifica quando un sito copia i nostri contenuti e quel sito dispone di un’autorità maggiore della nostra, tanto da portare Google a pensare che siamo noi ad aver copiato l’altro sito. Per questo è fondamentale che, ogni volta che viene pubblicata una nuova pagina da indicizzare, inviamo l’URL della pagina tramite Google Search Console e Bing Webmaster Tools, due strumenti che permettono ai motori di ricerca di scoprire prima le nostre pagine e darci una sorta di vantaggio cronologico. Non è da escludere anche la causa legale tra le soluzioni in caso di comportamenti gravi e scorretti.
Contenuti duplicati per errori tecnici
Oltre ai casi sopra citati di contenuti duplicati, potrebbero verificarsi situazioni in cui sul nostro sito (contenuti duplicati interni) sono presenti pagine duplicate per errori tecnici senza però rendercene conto. Questo accade soprattutto quando non si utilizza WordPress ma CMS custom. Se ad esempio il sito dispone di versioni di pagina http e https, potrebbe capitare che lo stesso contenuto sia accessibile tramite due link diversi:
- https://www.nomedominio.it/titolo-articolo/
- http://www.nomedominio.it/titolo-articolo/
Non solo, potrebbe anche accadere che il sito non è configurato correttamente per quanto riguarda il www o non www e trovarci quindi lo stesso contenuto su altri due url diversi:
- https://nomedominio.it/titolo-articolo/
- http://www.nomedominio.it/titolo-articolo/
Un altro caso ancora è l’utilizzo oppure no dello “/” finale. Un articolo potrebbe essere presente su:
- https://nomedominio.it/titolo-articolo/
- https://nomedominio.it/titolo-articolo
Questo tipo di problemi si verificano più comunemente di quanto possa sembrare e soprattutto passano inosservati perché richiedono un’analisi tecnica approfondita per essere scovati. In questi casi è possibile risolvere in due modi:
- Creare dei reindirizzamenti
Attraverso delle regole personalizzate è possibile creare dei redirect 301, comunichiamo quindi al browser e al motore di ricerca che, quando esso visita la pagina che consideriamo duplicata (ex quella in http) deve essere reindirizzato ad un altro indirizzo (ex quella in https). Questa soluzione è particolarmente consigliata nel primo esempio di http vs https e nel secondo esempio www vs non www al fine di avere una sola versione del sito. - Utilizzare il tag canonical
Il tag canonical già anticipato prima è un tag SEO che, all’interno di una pagina web, fornisce l’indirizzo della pagina principale che i motori di ricerca devono prendere in considerazione a scapito della pagina stessa.
Cos’è il tag canonical e perché ci aiuta contro i duplicati
Il tag canonical è una riga di codice invisibile agli utenti che comunica ai motori di ricerca quale pagina dev’essere considerata unica e da prendere in considerazione per l’indicizzazione ed il posizionamento nei risultati di ricerca.
Se ad esempio disponiamo di due prodotti molto simili tra loro sul nostro e-commerce con descrizione prodotto identica e con una differenza di tutto il resto pressoché minima, Google potrebbe analizzare le due pagine prodotto e percepirle come duplicati. L’utilizzo del canonical dev’essere fatta sulla pagina “meno importante” utilizzando il seguente codice:
<link rel=”canonical” href=”https://www.miodominio.it/cappello-con-koala” />
L’URL che andiamo ad inserire dopo href sarà quello della pagina principale, quella che ci interessa far percepire come importante rispetto alle altre versioni di pagina.
Un’ultimo consiglio parlando del canonical, è consigliabile inserire il tag in tutte le pagine, non soltanto quelle che vogliamo siano considerate meno importanti o duplicate. Per farlo dobbiamo inserire l’URL stesso della pagina come tag canonical. Ad esempio, per l’articolo https://www.dimarcoandrea.it/google-search-console/, il tag canonical è indicato come l’URL stesso quindi <link rel=”canonical” href=”https://www.dimarcoandrea.it/google-search-console/” />.
Questa pratica, consigliata da Google stesso, serve per evitare che si generino dei duplicati automatici della pagina stessa come ad esempio con i parametri. Se dovessimo creare degli annunci pubblicitari tramite Google ad esempio, l’indirizzo della pagina potrebbe acquisire dei parametri (codici identificati dal “?”) e diventare ad esempio https://www.dimarcoandrea.it/google-search-console/?gclid=1234 dove “gclid” è un codice che serve a Google per identificare il click. La pagina è la stessa, l’indirizzo è diverso. Tramite il “self-canonical” possiamo evitare quindi che si generino più duplicati della stessa pagina.
Quali tool usare per scoprire i contenuti duplicati SEO
Finché il nostro sito è composto da poche pagine difficilmente potrebbero esserci contenuti duplicati al di fuori di quelli tecnici evidenziati prima. Quando però il sito inizia a popolarsi, è consigliabile l’utilizzo di tool che permettano di scovare possibili problemi di duplicazione. Alcuni dei tool da utilizzare sono:
- Screaming Frog
Questo strumento, insieme alle sue infinite possibilità SEO, ci permette di scoprire quante pagine sul nostro sito sono duplicate. È anche possibile impostare una percentuale di contenuto minimo duplicato prima di far scattare il contatore (di base è impostato al 90%) ma è consigliabile ridurlo anche al 50% o 60%. - Siteliner
Online e totalmente gratuito, Siteliner esegue una scansione del tuo sito web per identificare quali sono le pagine con contenuti molto simili tra loro
Lo strumento è disponibile al seguente link: https://www.siteliner.com/ - Plagium
Nella sua versione gratuita Plagium permette di analizzare un testo fino a 1000 caratteri per scoprire se esistono sul web (quindi ricerca esterna al sito) versioni simili dello stesso testo. Nella sua versione a pagamento invece Plagium permette di cercare senza limiti di caratteri e analizzando direttamente la pagina per intero. Il tool è disponibile al seguente link: https://www.plagium.com/
I contenuti duplicati influiscono sulla SEO?
È molto difficile che Google applichi una penalizzazione per i contenuti duplicati. È più verosimile l’ipotesi che una singola pagina possa posizionarsi in maniera peggiore in caso di contenuti duplicati da altre fonti.
Qual è la percentuale massima di contenuto duplicato?
Non c’è una percentuale minima o massima di contenuto duplicato prima che la pagina venga penalizzata all’interno dei risultati di ricerca. Il tutto dipende da determinate ricerche e contesti. La citazione di altri studi ad esempio non può essere vista come contenuto duplicato. Il copiare una pagina in tutto e per tutto si.
