Dis papa, c’est quoi le duplicate content?

Publié le

septembre 12, 2009

dans

par

Cyroul

La plupart des vieux webmasters (ceux qui ont plus de 5 ans d’activité) ont forcément croisé un jour ou l’autre cette pratique infâââââme circulant sur le net. Pour ma part, je me suis fait piqué plus d’un article depuis quelques années, mais il y a 3 jours, c’est Cyroul.com qui s’est fait repompé un article. Ca m’a fortement agacé et je me suis mis à griffonner dans le métro (demandez à Clém). Car quand on est à bout d’épithètes, le dessin vous permet d’exprimer mieux ce que vous ressentez… duplicate-content

Je vous rassure, le litige avec le site fautif s’est résolu en 2 mails (ça sert d’avoir beaucoup de lecteurs, ça vous donne une sorte d’autorité).

Mais je me suis tout de même intéressé de nouveau à cette pratique que je pensais disparue. Et comme je suis définitivement sympa (n’est-ce pas gentils lecteurs), je vous livre le résultat des mes investigations dans un long article sur le sujet. Ca peut vous servir si vous avez un blog ou un site.

C’est quoi le duplicate content ?

Le duplicate content ou « contenu dupliqué à l’identique » évoque un contenu (texte, photo vidéo) qui a été recopié directement d’un site sur un autre, sans aucun travail de transformation (résumé, synthèse, avis personnel, etc.). Bref, du repompage intégral de votre travail acharné.

Vu qu’il s’agit d’un sujet complexe, voilà quelques définition pour vous y retrouver :

Unique Content : contenu écrit par un ou des humains (ou des chimpanzés, ça dépend si c’est un skyblog ou pas) et qui à un sens. Il existe en effet des algorithmes capables de générer du texte à la volée à partir de l’algo de Markov (ça ne sert à rien sauf pour le spam et le SEO pirate).
Snippets – des petits morceaux de texte (citations) qui son recopiées. Cela ne pose à priori pas de problèmes pour les moteurs de recherche.

Mais pourquoi piquer du contenu ?

… Vous-demandez vous, gentil et honnête lecteur de votre douce voix chantante. Tout simplement parce que c’est beaucoup moins difficile de faire un copier-coller que d’écrire un véritable article. Les étudiants le savent bien, se contentant bien souvent de faire de longs copier-coller issus du web sans même vérifier ni l’intérêt ni la pertinence de la source (quand ce n’est pas directement un mémoire tout entier). Heureusement que les profs commencent à savoir se servir de Google.

Mais pourquoi c’est mal ?

… Vous demandez vous de votre petite voix rendue faiblarde par la pensée que je puisse googelizer votre dernier mémoire de fin d’étude.

voleur Le duplicate content n’est pas bon pour votre blog pour plusieurs raisons :

l’indexation de Google : fut une époque, Google (qui scanne le contenu des pages web avec de petits robots) désindexait automatiquement de sa base de données les pages aux contenus similaires. Heureusement, ce n’est plus le cas. Le contenu dupliqué ne va pas pas pénaliser votre site sauf que ça force Google à choisir entre votre site et le site copieur. Et avec Google c’est le plus grand Page Rank qui gagne (oui c’est injuste, mais Google est une machine, on peut pas lui demander mieux pour l’instant). Donc si un site mieux référencé vous pique votre contenu, votre page disparait des résultats de recherche de Gooogle. Et à votre avis, quel pourcentage de la page a besoin d’être dupliqué avant de tomber dans de la désindexation ? Je vous donne la réponse (introuvable, les moteurs sont discrets sur ce sujet) : seulement 22,45%. Oui, vous avez bien lu, il suffit de vous piquer 22,45% de votre article et Google devra choisir entre votre site et le site pompeur. Pas cool…
Le direct linking ou hotlinking consiste à utiliser l’adresse d’un fichier publié sur un site web (une image la plupart du temps) pour l’afficher sur un autre site. En d’autres termes, au lieu d’enregistrer l’image et de l’installer sur son propre serveur web, le hotlinkeur crée un lien direct vers le serveur d’origine (en savoir plus sur la wikipédia). Et cette pratique consomme de la bande passante de votre serveur. Pas sympa…
Et enfin, il s’agit d’une pratique injuste pour l’éditeur d’un site web. Ecrire un article demande du temps et de l’énergie (je ne parle pas de l’article-minute que l’on trouve sur la plupart des blogs, hé) et se faire piquer son travail n’est vraiment pas un sentiment agréable. Surtout en sachant que les motivations de ces voleurs de contenus sont de se faire de l’argent via l’équation simple : SEO performant -> plus de trafic -> plus de publicité -> plus de pognon. Une motivation pourrie pour des gens pourris quoi. Pas fair…

Comment savoir qu’on me duplicate mon contenu ?

La première façon de se protéger (pour les voleurs débutants), c’est la création d’un maximum de liens internes (vers des articles de votre propre site). Grâce à ça, d’une part vous pouvez être averti par un trackback automatique si vous utilisez un blog de type wordpress. D’autre part Google y réfléchira à deux fois quand il devra choisir entre désindexer votre article (qui possède des liens vers le même site) ou l’article pompeur. Enfin, on espère que Google y réfléchira à 2 fois (on est jamais certain de rien avec Google).

Sinon il existe des outils spécialisés dans la détection de contenus dupliqués. Vous pouvez utiliser par exemple Copyscape (qui devient payant si vous voulez vraiment être exhaustif). Mais pourquoi ne pas utiliser Google pour détecter vos pages dupliquées?

Que faire si on me pique honteusement mon contenu ?

Vous avez les boules. Un salaud vous a piqué votre jolie article que vous aviez peaufiné avec amour. Que faire ?

Discutez avant de sévir !

Le voleur n’est pas toujours de mauvaise foi, et avant de tomber dans cette vengeance ultime, envoyez toujours un mail ou un commentaire au site incriminé.

Oui, c’est long, mais ne vaut-il mieux pas désactiver un conflit plutôt qu’en créer un ? Lisez Je me suis fait punir à cause du hotlink pour vous assurer qu’un petit mail vaut mieux qu’une déclaration de guerre.

Attention tout de même aux webmasters qui vous envoient un mail de réponse type vous prenant pour un imbécile (du genre : ah c’est mal ? mais non, je t’assure.). Enfin, tant qu’ils vous enlèvent le contenu copié, ça va.

Et si le site ne répond pas, il faut passer aux grands moyens…

Halte au hotlink !

chevauchee_vengeance Dans le cas du Hotlinking, vous pouvez utiliser la vengeance ultime (cruelle mais tellement joussive) : remplacer l’image « volée » par une image de Q (si possible un truc bien sale). Le site voleur va donc afficher sans s’en rendre compte une image indécente à votre plus grande joie. Vous aurez évidement pris la précaution de changer le nom de votre image sur votre propre article.

Si vous savez bidouiller, il existe également des scripts automatiques anti-hotlink (anti-leech). Vous pouvez également modifier votre htaccess pour interdire l’affichage d’image sur d’autre site que le sien (lire anti_hotlinking et le très bon Mesures anti-hotlink et anti-leech). Et vous pouvez enfin utiliser des services comme Visohotlink (que je n’ai pas testé) qui pullulent sur la toile et qui promettent de gérer le hotlink pour vous (enfin, je n’installerais ces services qu’avec précaution si j’étais vous).

Sus au voleurs de contenus !

Pour éviter de se faire désindexer, pourquoi ne pas utiliser la nouvelle balise « canonical » pour éviter le duplicate content ? Et si vous êtes sous WordPress, un plugin vous aide à l’installer.

Mais si vous décidez de vous venger de ce site qui se fait de l’argent en utilisant votre sueur, il vous reste l’arme ultime : déposer une plainte aux moteurs de recherche.

Google : Déclaration de violation relative à la Recherche sur le Web et à tous les autres produits.Ca peut très bien marcher si le site incriminé se rémunère avec des Adsense. Votre vengeance est alors absolue. Bwaahahahaha. Bon, si ça se trouve, il faut 12 mois à google pour désindexer le méchant, alors ne vous réjouissez pas trop vite quand même.
Yahoo! : Copyright and Intellectual Property Policy
MSN :NOTICE AND PROCEDURE FOR MAKING CLAIMS OF COPYRIGHT INFRINGEMENT

et si ça suffit pas et que vous avez plein d’argent à dépenser (comme Deviant Art?) vous pouvez attaquer le site en justice (mais là, si le site est malin, vous pouvez en avoir pour 10 ans).

En savoir plus :

Lisez absolument l’article ultime sur le duplicate content : The Illustrated Guide to Duplicate Content in the Search Engines
Je vous conseille aussi la lecture du très didactique Bien comprendre le Duplicate Content
Et pourquoi pas Duplicate Content, qu’est-ce que c’est ? chez Marine, une bonne intro sur le sujet
What should you do when you’ve found a content thief?

– max de lines internes

Commentaires

21 réponses à « Dis papa, c’est quoi le duplicate content? »

Vladkergan

septembre 12, 2009

La notion de DC revient aussi à la mode parce qu’une large portion d’annuairiste voit leurs pages disparaitre dans les tréfonds des pages de résultats justement parce que les webmaster qui inscrivent leurs sites rédigent très souvent une seule description qu’ils recopient à tout va. Maintenant, s’inscrire à un annuaire, si on veut que cela ait un effet notable, passe donc par la rédaction d’une description unique A CHAQUE FOIS.

Une bonne raison (une de plus) de laisser tomber une bonne fois pour toutes tous les services de soumission automatique dans XX XXX annuaires pour 1,5 euros, qui en plus de faire plonger votre site très rapidement (on parle ici de référencement naturel, vous croyez vraiment que 10 000 nouveaux liens vers votre site va passer pour naturel aux yeux de GG ?) ne vous permettent pas de gérer finement votre netlinking. Le référencement maintenant c’est davantage du qualitatif que du quantitatif.

Au niveau des sources d’infos sur le Duplicate Content, il ne faut pas oublier cet article très complet sur Webrankinfo : .

Quant aux scripts anti-hotlink, visohotlink a beau ne plus être maintenu, il est très efficace et assez puissant. Et pour aller plus loin dans les actions anti-hotlink, il y a, après l’affichage du bonne image de prOn à la place de l’image volée, la dénonciation du site à Adsense s’il utilise les services de la régie. D’autant qu’un compte Adsense supprimé n’est JAMAIS réactivé.

Je me bat aussi régulièrement contre ce genre de pratiques sur mon site, pas mal de webmaster s’imaginent que puisqu’un contenu est disponible sur le net il peut être librement copié. Il faut arrêter avec ca. Les contenus disponibles sur Internet sont sous le coup des même lois que n’importe quel contenu. Mais je rejoins Cyroul sur le fait que communiquer calmement avant d’en venir aux mains est la meilleure solution.
Stefdem

septembre 12, 2009

Hé hé hé ça me rappelle cette vengeance que j’ai perprétré contre un triste hotlinkeur récidiviste.
Sur Pixelbot, le gars pompait hardiment toutes mes images (à peu près 365 sprites).
Il s’est retrouvé à gérer un site porno en moins de deux 🙂
Publigeekaire

septembre 12, 2009

Bravo pour les dessins et l’article. Ça m’est notamment arrivé avec un article qui avait très bien marché (sur Sprite et ses fausses Pubs pseudo Pornos) et j’ai donc contacté pas mal de gens, qui dans l’ensemble, ont été assez cools (à part un site de cul qui avaient indexé automatiquement l’article en captant le mot Porno, et qui ne proposait bizarrement pas de page « contact »).

Sinon je suis d’accord, c’est lourd de se faire piquer son boulot. Mais il n’y a pas longtemps, alors que j’étais en train de m’énerver, je suis me suis rappelé que ça m’était déjà arrivé de récupérer de la musique ou des vidéos sans trop me poser de questions sur les créateurs (Napster Inside)…

Et là, j’avoue que je me suis auto cassé. Marrant comme le fait de passer de l’autre côté de la barrière change tout à coup les perspectives et les avis.
orxataa

septembre 13, 2009

Bonjour,
Je viens faire le témoignage car je suis une « voleuse »!
Je viens sur ce site pour apprendre. Je suis en petite section de maternelle de bloggeuse. J’avoue avoir copier-coller des « bouts » de contenus en indiquant la source et le lien de la source, mais sans vouloir industrialiser mon contenu et encore moins dans une recherche de « référencement à tout prix ». Je suis peut être un exemple de voleuse débutante! 🙂
Cyroul

septembre 13, 2009

Salut @orxataa ce n’est pas grave, ton corps se transforme… Heu, non, ce n’est pas grave car les snippets (ce que tu fais à priori) ne sont pas cause de desindexation chez Google. De plus, si tu cites l’article (et si tu le link), je ne vois pas le problème.
Tu as le droit de prendre des morceaux de mon contenu, dans ce cas, car c’est un attitude propre au web (et à l’art, et à la science) de construire du nouveau contenu à partir de briques de contenu externes.
Alors non @orxataa, tu n’es pas une voleuse.
Vladkergan

septembre 13, 2009

@orxataa : si tu ne fais que citer une partie du texte de ta source, et que tu donnes le lien vers celle-ci, alors non il n’y a pas trop de risques que tu pénalises les sites où tu récupères des infos, car en agissant comme cela tu montre que tu as du respect pour ceux qui ont rédigé le contenu.

Après le plus embêtant c’est que Dieu Google est de plus en plus pointilleux sur la question, et qu’il en faut de moins en moins pour qu’un contenu, même partiellement repris, ne puisse pénaliser le contenu original (c’est bien souvent le plus gros des deux sites, c’est à dire le plus reconnu par Google, qui l’emportera, mais ce n’est pas non plus une vérité absolue).

Mais pour peux que tu ne mettes que des extraits avec lien de l’article source, les créateurs initiaux du contenu n’ont eux que peu de choses à te reprocher.
Marine

septembre 13, 2009

Très bon article, bien complet ! J’en ai appris pour les images !
Et merci pr le lien 😉
AxeNet

septembre 14, 2009

Bonjour,

J’avais publié un article similaire à celui-ci l’année dernière : http://blog.axe-net.fr/duplicate-content-plagiat/ il indique quelques autres pistes pour se défendre des voleurs de contenu.
Je rassurerai aussi Orxataa, si les liens vers la source sont indiqués, c’est un moindre mal. Par contre, il y a de forte chance pour que ce soit ton contenu qui soit perçu comme dupliqué. Il ya a donc toujours interêt à écrire sois-même. Ceci peut toutefois être une reformulation complète en reprenant juste l’idée d’un autre article.

Par contre, je ne vois pas bien d’ou sortent les 22,45% annoncés. Pour ma part, j’ai vu des sanctions de duplicate content pour un simple bout de phrase.

Au passage, je découvre ce blog que je trouve excellent, avec des articles visiblement non copiés 😉
Cyroul

septembre 14, 2009

@Axelnet merci pour le lien (excellente ressource que je conseille). Et je t’assure que les contenus sont écrits avec mes petites mimines 😉

Je vous conseille également de lire les commentaires additionnels de @Vladkergan, expert du duplicate content (et vampirologue le reste du temps ;].
Orxataa

septembre 14, 2009

Merci Cyroul pour ta réponse et merci pour les autres commentaires.
J’essaie de ne pas faire de tort. Il y a une éthique dans mon métier, j’essaie de l’appliquer à mon nouveau hobby de la rentrée 🙂

Je pense que mon contenu n’est pas assez intéressant et bien écrit pour qu’on me le pique pour le moment! Peut être quand je passerai mon BEPC de bloggeuse, j’y réfléchirai 😉
Vladkergan

septembre 14, 2009

Oh expert, je ne pense pas plus l’être que Blog Axe, que je connais sous un autre pseudo (et qui me connaît sous un autre pseudo) sur un célèbre forum de référencement français sus-cité.

Le truc c’est que la problématique m’intéresse car je veille constamment au non-repiquage abusif des contenus de mon site.

Et je le fais autant pour ne pas plomber mon référencement que pour montrer aux pilleurs que les contenus ont des auteurs qui triment pour proposer du contenu original. Et que le net n’est pas un espace de non-droit où le contenu peut être repiqué sans se soucier de qui en est à l’origine.

Qui plus est, Google et ses copains sont de moins en moins tolérant sur le repiquage de contenu. Et à dire vrai, qui leur en voudrait pour faire le tri quand un même texte se retrouve 40 000 fois sur la toile ? Après la manière dont ils traite ce duplicate n’est pas toujours très « juste » (les gros sites qui pompent pouvant aisément se retrouver, de part leur taille, considéré à tort comme les producteurs d’un contenu repiqué), mais l’idée de faire le ménage est à mon sens compréhensible.
Orxataa

septembre 17, 2009

Une question aux experts ?
Est ce que vous avez déjà constaté ou eu un gros doute sur le pompage de votre contenu par des médias autres que Internet : presse, radio…ect?

Il y a t’il des journalistes qui réutilisent et remettent en « forme » le contenu de certains bloggueurs? Si oui, y a t’il des recours possibles? Cela en vaux t’il la peine?
AxeNet

septembre 17, 2009

@ Orxataa
Cela arrive.
Que ce soit « volé » pour le web ou le print, une solution consiste à afficher les tarifs de reprise.
Ceci permettra en cas de non réponse de la personne concernée de lui adresser une facture.
Il est ensuite plus facile d’attaquer en justice au tribunal de commerce pour un défaut de paiement que pour atteinte aux droits d’auteur.
Ne pas hésitez à fortement valoriser financièrement vos contenus dans vos tarifs.

Un exemple ici : http://blog.axe-net.fr/copyright-et-informations-legales/
Simon

septembre 17, 2009

Pour ma part je constate que si on utilise certains outils de Ping et qu’on sait rapidement dire à Google (sitemaps pings linking rapide une fois le lien créé) qu’il y a du nouveau, les sites copieurs seront facilement relégués, même si ils ont un bon ranking. Google aime beaucoup la fraîcheur en ce moment et il est très dommageable que des sites copieurs qui savent manier l’indexation rapide se fassent passer pour les éditeurs originaux !
Orxataa

septembre 17, 2009

Merci Axenet! C’est très intéressant ce que tu m’expliques.
Merci aussi à Simon, je ne maîtrise que le ping pong pour le moment, mais je garde ton info dans mes prochains objectifs d’amélioration de mes blogs.
Philippe Thareaut

septembre 19, 2009

Excellent article…j’ai eu à dealer avec une autre problèmatique de Duplicate content à l’intérieur d’un même site lié au CMS. Au plaisir de te lire de nouveau. Phil
Cyroul

septembre 20, 2009

Hello Phil, je n’ai effectivement pas parlé du duplicate content interne d’un site web car ça c’est le pb des concepteurs du site. Mais c’est clair que ça peut poser des pbs (va falloir que je m’y mette un jour d’ailleurs).
Déballer

novembre 12, 2009

Article intéressant !

Je tiens juste à dire au webmaster de changer la couleur de ses liens, car ça fait vraiment mal aux yeux ce fluo…
Cyroul

novembre 13, 2009

@Déballer Ouaip, tu n’es pas le premier à me le dire. Voilà qui est corrigé.
Manon Collard

février 3, 2010

Vraiment complet votre article et ayant plus de 10 ans d’expérience sur le web, ça m’est arrivé plusieurs fois de me faire copier même si je mets une note en bas de toutes mes pages. Justement je suis à terminée la mise-à-jour de mon site pour février et je compte bien mettre un lien de votre page pour indiquer aux copieurs que je me sens comme votre bonhomme vert lorsque je me fais copier même après de plates excuses!
Cyroul

février 4, 2010

@Marion, et bien merci beaucoup. L’article sert effectivement à lutter (dans la mesure de mes faibles moyens) au méchants pourris du web.

Et les excuses à posteriori de celui qui s’est fait surprendre ne servent effectivement pas à grand chose.

A noter : le plugin « All In One SEO » de WordPress permet maintenant d’intégrer la balise Canonical. Vous n’êtes plus obligé (pour les heureux possesseurs de wordpress) d’installer canonical.

WEB 2.0, 15 ans déjà et après ?

Comment reconnaître un article naze sur le numérique ?

De l'absence de CX (Customer Experience) dans les sites e-commerce

6 dessins des réseaux Internet à ne pas mélanger

Le reposting n'est pas du blogging ni du journaling

Marques, blogueurs et crise de bad buzz