Pourquoi faut-il éviter le contenu dupliqué en SEO ?
Le contenu dupliqué interne ou externe est un problème majeur pour le référencement des sites web. D'abord, il rebute les utilisateurs, qui recherchent un contenu unique et original, et il peut aussi entraîner des pénalités par les moteurs de recherche.
Mais surtout, le contenu dupliqué entrave votre propre référencement : Google se retrouve incapable de décider quel contenu mettre en avant.
Si les moteurs de recherche ne parviennent pas à déterminer quel contenu est original et quel contenu est copié, ils peuvent choisir de n'indexer aucune des deux versions. Cela signifie qu'aucun des contenus concernés par le duplicate n'apparaîtra dans les résultats de recherche ! Vous imaginez les problèmes d'un site dont les fiches produits sont toutes identiques, à quelques variations près ?
Les différents types de duplication (contenu en double)
Si la définition de contenu dupliqué sur un site web est plutôt évidente, il existe différents types de copie de contenu (duplicate content) qui se résolvent de différentes manières.
Le vol de contenu
Le plagiat est un véritable fléau sur internet, et il ne faut pas hésiter à réagir si cela vous arrive !
Il existe plusieurs façons de vérifier si vos textes ont été volés.
Le moyen le plus simple est d'utiliser une recherche Google : entrez dans le moteur de recherche "[Votre texte]" + site : "[URL de votre site]". Si cette requête renvoie des résultats provenant d'autres sites, cela signifie qu'ils ont copié votre contenu sans votre autorisation.
Vous pouvez également utiliser un vérificateur de plagiat comme Copyscape. Il suffit d'entrer l'URL de votre page dans le moteur de recherche, et Copyscape va alors scanner internet pour trouver des pages contenant votre contenu.
Si vous constatez que quelqu'un a volé votre contenu (tout ou partie), vous pouvez déposer une plainte DMCA auprès de Google.
Duplicate content interne
Le vol de contenu n'est qu'un des aspects du contenu dupliqué. Même si vous n'avez rien plagié ni volé aux autres sites web, les moteurs de recherche vérifient aussi si vous n'avez pas copié de contenu à l'intérieur de votre propre site web... Et oui ! Google n'apprécie pas que du contenu se répète d'une page web à une autre, même si elles appartiennent aux mêmes sites internet, et même s'il ne s'agit que de quelques phrases.
Dans le cas du e-commerce et de ses multiples fiches produit, le contenu dupliqué peut vite devenir un gros problème : il est possible que cela vous pénalise, et certaines de vos pages pourraient ne pas du tout être indexées.
Lorsqu'un même contenu copié-collé apparaît sur plusieurs pages de votre site web (un classique avec les fiches produit par exemple), on parle de "duplicate content interne". Cela se produit généralement lorsque vous avez des produits qui existent en différentes tailles, couleurs ou versions.
Par exemple, une page de produit pour une robe rouge peut être très similaire à la page de produit pour une robe bleue, avec des blocs entiers de texte copié-collé. Dans le cas des menus à facettes, il peut aussi arriver qu'une même page remonte avec des combinaisons de filtres différentes, donc une URL différente.
Ce type de duplicate content impacte négativement l'expérience utilisateur. Cela peut rapidement le rebuter et l'inciter à quitter votre site.
Google interprète cela comme un signe que votre contenu n'est pas particulièrement original ou pertinent. En conséquence, votre site sera moins bien positionné dans les résultats du moteur de recherche.
Le spinning
Le spinning est un procédé qui consiste à générer automatiquement des articles en remplaçant des mots par leurs synonymes, au sens souvent approximatif. Cela donne lieu à des articles souvent trop proche quand cette technique est mal maitrisée.
En effet, les mêmes idées étant exprimées avec des mots différents, très proches et parfois même mal à propos, le contenu généré peut être considéré comme un duplicate.
Cette technique est par exemple utilisée pour déployer un même service dans différentes villes. Cela évite de se retrouver avec un contenu identique pour les centaines de villes sur lesquelles nous souhaiterions nous positionner.
Duplicate content externe (plagiat et citations)
Lorsque le même contenu apparaît sur plusieurs sites différents (même s'ils ne sont pas affiliés les uns aux autres), on parle de "contenu dupliqué externe". Cela se produit lorsqu'un site récupère votre contenu et le publie sur son propre site. Ou l'inverse...
Prendre du contenu sur un autre site s'appelle tout simplement du plagiat. C'est bien sûr à éviter à tout prix, tant pour des raisons éthiques que juridiques. Mais c'est également mauvais pour votre référencement SEO : Google détectera le plagiat et pénalisera sévèrement les sites impliqués. Le problème, c'est que Google n'est pas toujours capable de savoir qui est l'original et qui est le copieur... vous pourriez parfaitement être victime de plagiat ET vous faire sanctionner pour plagiat !
Si vous avez du contenu "cité" (par exemple, des faits d'actualité ou des textes provenant du site web du gouvernement), vous pouvez aussi vous retrouver avec une alerte contenu dupliqué.
Le contenu dupliqué peut provenir d'un trop grand nombre de citations. Un texte qui n'est qu'une succession de citations devient vite ennuyeux pour le lecteur, qui y voit un moyen facile de remplir une page sans avoir à écrire soi-même ! En conséquence, ce type de contenu est souvent pénalisé par Google.
Duplicate URL
Des URL dupliquées peuvent survenir lorsqu'une même page est accessible via plusieurs moyens. Par exemple, si votre site est accessible à la fois avec et sans "www", ou si certaines pages sont accessibles avec ou sans barre oblique de fin d'URL("/"). Google considère qu'il s'agit de contenu dupliqué, car la même page du site web est accessible par plusieurs URL différentes...
Comment trouver et corriger le contenu dupliqué sur votre site web ?
Voici quelques conseils pour trouver et corriger le contenu dupliqué sur votre site.
Trouver le contenu dupliqué
Afin d'identifier le contenu dupliqué sur votre site, vous pouvez utiliser un outil gratuit en ligne comme Siteliner, qui va scanner votre site et vous faire un rapport technique assez complet, dont le contenu dupliqué. Toutefois, étant gratuit, l'outil a ses limites, et vous ne pourrez pas scanner plus d'un certain nombre de pages.
Vous pouvez aussi scanner vos contenus avec un outil comme KillDuplicate, qui lui est payant, mais bien plus efficace.
Corriger le contenu dupliqué
La solution la plus radicale consiste à supprimer de votre site les pages contenant du contenu dupliqué. Bien entendu, cette solution ne doit être utilisée que si ces pages n'apportent pas ou peu de trafic à votre site web ou ne génèrent pas de ventes. Dans ce cas, mieux vaut prendre toutes les précautions nécessaires en faisant également une redirection 301 de la page supprimée vers la page conservée.
La deuxième solution consiste à rediriger les robots vers la page "canonique". Ceci se fait à l'aide de la balise rel="canonical" qui doit être placée dans le code HTML de vos pages.
La dernière solution, qui ne doit être utilisée qu'en dernier recours, consiste à modifier le texte de vos pages dupliquées afin qu'elles soient différentes des autres. Mais attention, cette modification va mettre du temps à être remarquée par Google, et le délai peut suffire à vous faire chuter en position brutalement...
Comment éviter le contenu dupliqué
Parce qu'il impacte la bonne expérience utilisateur, éviter le contenu dupliqué est indispensable. Qu'il s'agisse d'un e-commerce, d'un article de blog ou de sites web qui scrapent vos pages web à l'aide d'un outil automatique de copie de contenus, vous devez faire en sorte de ne pas provoquer de duplicate content.
Voici quelques conseils pour éviter d'avoir du contenu dupliqué.
- Utilisez un outil contrôleur de duplicate content avant de publier un contenu texte. Cela vous permettra d'éviter le contenu dupliqué, mais aussi le plagiat.
- Evitez de copier-coller votre propre contenu entre vos réseaux sociaux. Essayez plutôt de reformuler vos contenus : ce sera de toute façon bien plus efficace de l'adapter à votre cible !
- Utilisez les redirections 301 : si vous avez deux pages web dont le contenu est très similaire, vous pouvez rediriger l'une des pages vers l'autre. Google comprendra alors que la page web a été "déplacée" et le trafic de cette page sera transféré vers l'URL de destination.
- Utilisez la balise "rel=canonical" : comme nous l'avons vu, cette balise vous permet d'indiquer à Google quelle URL doit être considérée comme l'URL canonique. Il s'agit d'une bonne solution si vous ne pouvez (ou ne voulez) pas rediriger les pages.
- Utilisez la balise noindex pour empêcher Google d'indexer les pages que vous considérez comme des doublons, mais dont vous avez besoin.
- Utilisez la balise citation pour mettre en évidence une citation d'un autre site. Google comprendra alors que le texte n'est pas le vôtre, et ne vous pénalisera pas pour duplicate content.
Comme vous pouvez le constater, le contenu dupliqué est un véritable problème pour le référencement de votre site web. Il est essentiel de prendre des mesures pour le trouver et le corriger, afin d'éviter d'être pénalisé par Google. Mais attention, certaines solutions (comme la redirection de pages) peuvent avoir un impact négatif sur votre trafic si elles ne sont pas bien pensées !
Le plagiat de contenu sur les moteurs de recherche
Si vous êtes vous-même victime de vol de contenu, vous pouvez déposer une plainte DMCA auprès de Google. Cette procédure est relativement simple et vous permettra de supprimer rapidement le contenu dupliqué des résultats de recherche de Google.
Sanctions pour contenu dupliqué
Google peut sanctionner les sites qui publient du contenu dupliqué. La principale sanction est une baisse du classement du site dans les résultats de recherche de Google. Dans les cas extrêmes, le site peut même être complètement retiré de l'index de Google (désindexation).
Cela va avoir un impact immédiat sur le trafic, et entraîner une chute du chiffre d'affaires.
Le formulaire DMCA
Le DMCA est une loi américaine qui protège les droits d'auteur des contenus numériques.
Si votre site web est basé dans un autre pays, vous pouvez tout de même déposer une plainte DMCA auprès de Google. Pour ce faire, rendez-vous sur le formulaire "plaintes légales" de Google.
Vous devrez alors remplir un formulaire avec les informations suivantes :
- L'URL de la page contenant le contenu dupliqué ;
- L'URL de la page originale sur votre site ;
- Vos coordonnées (adresse électronique, numéro de téléphone) ;
- Un lien vers votre certificat d'enregistrement de droits d'auteur (ce n'est pas obligatoire, mais cela peut aider Google à traiter votre demande).
- Une fois que vous avez rempli tous les champs, cliquez sur "Envoyer".
Votre plainte sera ensuite examinée par Google, et le contenu dupliqué devrait être supprimé des résultats de recherche en quelques jours.
Les plaintes DMCA abusives
Il arrive que certains référenceurs black hat ou des concurrents utilisent cette procédure pour faire du negative SEO. Ils envoient alors des centaines (voire des milliers) de plaintes DMCA à Google dans l'espoir qu'un site interne soit pénalisé. Cette pratique est appelé "bombardement DMCA".
Si vous êtes victime d'une attaque negative SEO, ne paniquez pas ! Google est généralement assez doué pour identifier ces plaintes abusives et les ignorera.
Se protéger du vol de contenu
Il peut être difficile d'empêcher totalement un webmaster vraiment déterminé de voler votre contenu. Mais vous pouvez déjà lui rendre la vie beaucoup plus dure en décourageant la majorité des petits flemmards qui n'ont pas envie de rédiger leur propre contenu.
Voici quelques conseils.
Bloquer le copier coller
Vous pouvez également utiliser un script qui bloquera la sélection et la copie de votre contenu texte.
Ce code doit être ajouté dans l'en-tête de votre site (dans la section). Notez que cela peut ne pas fonctionner sur tous les navigateurs !
Vous pouvez bloquer sur votre site :
- la sélection de texte
- le clic droit
- la copie de texte via le clic de souris
- la copie de texte via le raccourci clavier (Ctrl + C).
Ce code n'empêchera certes pas les gens de faire des captures d'écran, mais il est tout de même dissuasif pour la plupart des voleurs. L'idée de devoir réécrire tout le contenu à la main suffit en général à les décourager.
Intégrer le nom de votre marque dans vos articles
Ça semble bête, mais de nombreux petits voleurs ne prennent même pas la peine de lire en entier le contenu qu'ils s'approprient. Du coup, certains oublient de retirer le nom de l'auteur d'origine ou les mentions de marque quand elles se trouvent dans le cœur du texte.
Cela constituera une preuve irréfutable de plagiat, en plus de ruiner sa crédibilité.
Déposer votre marque
Vous aurez ainsi le droit d'agir si quelqu'un tente de faire passer votre contenu pour le sien. Cela n'empêche pas le vol, mais a un effet radical quand vous contactez le webmaster.
En général, un petit mail bien froid au voleur qui lui rappelle les droits d'auteur et les sanctions juridiques prévues suffit à lui faire entendre rapidement raison.
Et s'il ne réagit pas, déposez plainte !
Pour plus d'informations sur l'enregistrement d'une marque, consultez le site web de l'INPI.
Utilisez les alertes Google
Google Alerts est un outil de surveillance gratuit proposé par Google. Vous pouvez l'utiliser pour suivre n'importe quel mot clé sur le Web, y compris le nom de votre marque ou les titres de vos articles de blog.
Vous recevrez ensuite une notification par mail chaque fois que ce mot clé est mentionné sur le web. Vous pourrez ainsi réagir rapidement si quelqu'un tente de voler votre contenu.
En conclusion - à suivre
La meilleure façon de protéger votre contenu reste d'écrire un contenu unique, original et de haute qualité que les gens identifient immédiatement comme le vôtre. C'est le meilleur moyen d'obtenir des liens naturels et des partages sur les réseaux sociaux, ce qui améliorera la visibilité et la notoriété de votre marque.
Après avoir vu ce qu'il ne faut pas faire, nous parlerons dans le prochain chapitre des contenus les plus appropriés en fonction du type de site que vous gérez.