Le duplicate content (contenu dupliqué)

 In General

Définition du contenu dupliqué

Un contenu dupliqué est un contenu que l’on pourra retrouver sur le net à plusieurs endroits.

Quel que soit l’endroit sur le net où le contenu apparaît, et nous y reviendrons plus tard, le contenu est, ou peut être pris en compte par Google.
Ainsi si le même contenu ressort à deux ou plusieurs endroits, il y aura aux yeux de Google du contenu dupliqué.

Lorsqu’il y a du contenu dupliqué, Google n’applique pas systématiquement une pénalité. Par contre il ne prendra en compte qu’un des sites présentant le contenu. Il en va de même pour le contenu que l’on appelle “near duplicate”  ou contenu similaire. Il s’agit de contenu qui n’est pas strictement identique mais qui est très semblable.

L’importance du contenu dupliqué

Il existe trois problèmes liés au contenu dupliqué avec les moteurs de recherche.

Tout d’abord les moteurs de recherche ne savent pas quelle version du texte il doit faire apparaître dans leur moteur de recherche.

Ils ne savent en effet pas quelles sont les meilleures mesures de qualité pour un texte (la confiance que l’on accorde au site, l’autorité de l’auteur, la thématique du site, etc).

Si le texte a évolué dans le temps, ils ne savent généralement pas quelle est la meilleure version à afficher.

Le contenu dupliqué est également un problème pour les personnes qui sont éditeurs de site, ou plus généralement propriétaires d’un site. En effet comme nous l’avons vu rapidement tout à l’heure, le contenu dupliqué peut entraîner des pertes de positions, surtout si Google ou les moteurs de recherche en général, considère que votre site n’est pas le site légitime pour le faire apparaître.

Google n’est malheureusement encore pas très au point avec le contenu dupliqué, et va généralement considérer que le site bénéficiant de la plus forte autorité à ses yeux est la source originale du texte, même si il l’a publié des années après un autre site.

Les éditeurs de sites peuvent donc être pénalisés pour un contenu qu’une autre personne leur aura pris, même si cela a lieu des années après la publication originale.

La source du contenu dupliqué

Contrairement à ce que l’on pourrait penser à priori, la principale source de contenu dupliqué n’est pas faite de manière intentionnelle. Il ne s’agit pas d’un internaute ou de webmaster qui ferai du copier-coller de texte pour le mettre sur le leur.

Voici quelques exemples d’actions qui pourraient engendrer du contenu dupliqué sur votre site sans que vous le sachiez ou ne le souhaitiez.

Des variations dans l’ url

Les URL peuvent contenir des paramètres. Par exemple vous pouvez avoir un paramètre qui me permettre de faire le suivi de clic mais également des codes analytics, et cela peut parfois générer des problèmes de duplication de contenu.

Cela peut venir non seulement des paramètres par eux-mêmes mais également de l’ordre dans laquelle ces paramètres ressortent dans les URL.

Il en va de même pour les ID de session qui peuvent également générer parfois du contenu dupliqué. Lorsque vous visitez certains sites, vous pourrez remarquer que celui-ci ajoute un ID à votre url lorsque vous visitez le site, mais il en va de même lorsque Google visite le site. Cela peut engendrer des problèmes de duplicate.

Une façon assez simple d’éviter ce problème est de ne pas inclure de paramètre dans les URL ou alors de veiller parce que cela n’ait pas de répercussion sur votre référencement

La différence entre des pages en http et https, avec ou sans www

Si votre site comporte différentes versions par exemple avec ou sans www alors il est possible que sans le savoir vous génériez du contenu dupliqué.

En effet il est fort possible que votre contenu soit disponible sur les deux versions. Il en va de même si votre site existe en version sécurisée et non sécurisée. Il est très facile de résoudre cela en n’affichant qu’une seule version.

Le contenu copié

Le contenu copié peut concerner non seulement des pages ou des articles de blog, c’est-à-dire du contenu de type éditorial, mais également des pages d’information sur les produits.

Si vous réalisez par exemple de belles fiches produit, il y a fort à parier que des concurrents chercheront à copier directement votre description pour la mettre sur leur site et ainsi gagner du temps. Néanmoins cela peut être un problème si leur site a plus d’autorité aux yeux de Google que le vôtre car c’est leur site qui ressortira en premier.

De la même façon vous vous pouvez tenter de copier le contenu que le fabricant de l’article a mis sur son site. C’est fortement déconseillé car il est possible que celui-ci ait plus d’autorité et, par conséquent ce n’est pas votre site qui ressortira dans les résultats de recherche de Google.

Résoudre les problèmes de duplicate

Pour résoudre la majorité des problèmes de contenu dupliqué, la solution est généralement assez simple. Il suffit d’indiquer à Google quelle est la bonne source.

En effet lorsqu’un contenu est disponible sur plusieurs url, il est important d’apporter une balise canonical qui indiquera au moteur de recherche quelle est l’url la plus pertinente et donc la source à prendre pour ce contenu.

La balise canonical va permettre d’indiquer aux moteurs de recherche qu’une page ne doit être traitée que comme une copie, et par conséquent être ignorée du classement dans les moteurs de recherche.

Une autre solution pour gérer les problèmes de duplicate content est d’indiquer aux moteurs de recherche qu’une page doit tout simplement être ignorée. Pour cela vous pouvez par exemple utiliser la meta no index qui signifie que vous demanderez au moteur de recherche de tout simplement ne pas faire apparaître cette page dans leur base de données, et par conséquent de ne pas ressortir dans les résultats des recherches que pourraient faire les internautes.

Pour pallier au problème de contenu dupliqué lié à différentes version du site, par exemple la version sécurisée ou non sécurisée, vous pouvez spécifier dans la Google Search console quelle version précisément Google doit parcourir. Cela vous permettra de diminuer le risque de contenu dupliqué.

Cette version n’est néanmoins pas optimale car elle ne permettra pas de fonctionner pour les autres moteurs de recherche, comme par exemple Bing.

Une autre solution pour éviter le contenu dupliqué, et d’intégrer un script à votre site qui placera automatiquement un lien vers celui-ci lorsque du contenu est copié ; ainsi un internaute qui, même sans être malveillant, cherchera à copier votre texte placera automatiquement un lien vers celui-ci indiquant à Google qu’il en est la source.

Enfin une dernière solution pour se protéger du contenu dupliqué est de vérifier les pages qui perdent des positions si le texte a déjà été copié par d’autres personnes. Pour cela rien de plus simple. Il vous suffit de prendre un bout du texte et de le mettre dans Google. Si vous voyez d’autres résultats que le vôtre ressortir dans Google mais contenant exactement le même texte, alors vous découvrez instantanément des pages qui ont copié votre contenu. Il ne vous reste plus qu’à contacter les propriétaires de ces sites pour qu’il les retire. Si cela n’arrive pas vous pouvez faire une DMCA auprès de Google afin de faire retirer leur site ou tout du moins leur URL de Google. 

Recent Posts
balise-meta-title balise h1