La plupart des vieux webmasters (ceux qui ont plus de 5 ans d’activité) ont forcément croisé un jour ou l’autre cette pratique infâââââme circulant sur le net. Pour ma part, je me suis fait piqué plus d’un article depuis quelques années, mais il y a 3 jours, c’est Cyroul.com qui s’est fait repompé un article. Ca m’a fortement agacé et je me suis mis à griffonner dans le métro (demandez à Clém). Car quand on est à bout d’épithètes, le dessin vous permet d’exprimer mieux ce que vous ressentez… duplicate-content

Je vous rassure, le litige avec le site fautif s’est résolu en 2 mails (ça sert d’avoir beaucoup de lecteurs, ça vous donne une sorte d’autorité).

Mais je me suis tout de même intéressé de nouveau à cette pratique que je pensais disparue. Et comme je suis définitivement sympa (n’est-ce pas gentils lecteurs), je vous livre le résultat des mes investigations dans un long article sur le sujet. Ca peut vous servir si vous avez un blog ou un site.

C’est quoi le duplicate content ?

Le duplicate content ou « contenu dupliqué à l’identique » évoque un contenu (texte, photo vidéo) qui a été recopié directement d’un site sur un autre, sans aucun travail de transformation (résumé, synthèse, avis personnel, etc.). Bref, du repompage intégral de votre travail acharné.

Vu qu’il s’agit d’un sujet complexe, voilà quelques définition pour vous y retrouver :

  • Unique Content : contenu écrit par un ou des humains (ou des chimpanzés, ça dépend si c’est un skyblog ou pas) et qui à un sens. Il existe en effet des algorithmes capables de générer du texte à la volée à partir de l’algo de Markov (ça ne sert à rien sauf pour le spam et le SEO pirate).
  • Snippets – des petits morceaux de texte (citations) qui son recopiées. Cela ne pose à priori pas de problèmes pour les moteurs de recherche.

Mais pourquoi piquer du contenu ?

… Vous-demandez vous, gentil et honnête lecteur de votre douce voix chantante. Tout simplement parce que c’est beaucoup moins difficile de faire un copier-coller que d’écrire un véritable article. Les étudiants le savent bien, se contentant bien souvent de faire de longs copier-coller issus du web sans même vérifier ni l’intérêt ni la pertinence de la source (quand ce n’est pas directement un mémoire tout entier). Heureusement que les profs commencent à savoir se servir de Google.

Mais pourquoi c’est mal ?

… Vous demandez vous de votre petite voix rendue faiblarde par la pensée que je puisse googelizer votre dernier mémoire de fin d’étude.

voleurLe duplicate content n’est pas bon pour votre blog pour plusieurs raisons :

  1. l’indexation de Google : fut une époque, Google (qui scanne le contenu des pages web avec de petits robots) désindexait automatiquement de sa base de données les pages aux contenus similaires. Heureusement, ce n’est plus le cas. Le contenu dupliqué ne va pas pas pénaliser votre site sauf que ça force Google à choisir entre votre site et le site copieur. Et avec Google c’est le plus grand Page Rank qui gagne (oui c’est injuste, mais Google est une machine, on peut pas lui demander mieux pour l’instant). Donc si un site mieux référencé vous pique votre contenu, votre page disparait des résultats de recherche de Gooogle. Et à votre avis, quel pourcentage de la page a besoin d’être dupliqué avant de tomber dans de la désindexation ? Je vous donne la réponse (introuvable, les moteurs sont discrets sur ce sujet) : seulement 22,45%. Oui, vous avez bien lu, il suffit de vous piquer 22,45% de votre article et Google devra choisir entre votre site et le site pompeur. Pas cool…
  2. Le direct linking ou hotlinking consiste à utiliser l’adresse d’un fichier publié sur un site web (une image la plupart du temps) pour l’afficher sur un autre site. En d’autres termes, au lieu d’enregistrer l’image et de l’installer sur son propre serveur web, le hotlinkeur crée un lien direct vers le serveur d’origine (en savoir plus sur la wikipédia). Et cette pratique consomme de la bande passante de votre serveur. Pas sympa…
  3. Et enfin, il s’agit d’une pratique injuste pour l’éditeur d’un site web. Ecrire un article demande du temps et de l’énergie (je ne parle pas de l’article-minute que l’on trouve sur la plupart des blogs, hé) et se faire piquer son travail n’est vraiment pas un sentiment agréable. Surtout en sachant que les motivations de ces voleurs de contenus sont de se faire de l’argent via l’équation simple : SEO performant -> plus de trafic -> plus de publicité -> plus de pognon. Une motivation pourrie pour des gens pourris quoi. Pas fair…

Comment savoir qu’on me duplicate mon contenu ?

La première façon de se protéger (pour les voleurs débutants), c’est la création d’un maximum de liens internes (vers des articles de votre propre site). Grâce à ça, d’une part vous pouvez être averti par un trackback automatique si vous utilisez un blog de type wordpress. D’autre part Google y réfléchira à deux fois quand il devra choisir entre désindexer votre article (qui possède des liens vers le même site) ou l’article pompeur. Enfin, on espère que Google y réfléchira à 2 fois (on est jamais certain de rien avec Google).

Sinon il existe des outils spécialisés dans la détection de contenus dupliqués. Vous pouvez utiliser par exemple Copyscape (qui devient payant si vous voulez vraiment être exhaustif). Mais pourquoi ne pas utiliser Google pour détecter vos pages dupliquées?

Que faire si on me pique honteusement mon contenu ?

Vous avez les boules. Un salaud vous a piqué votre jolie article que vous aviez peaufiné avec amour. Que faire ?

Discutez avant de sévir !

Le voleur n’est pas toujours de mauvaise foi, et avant de tomber dans cette vengeance ultime, envoyez toujours un mail ou un commentaire au site incriminé.

Oui, c’est long, mais ne vaut-il mieux pas désactiver un conflit plutôt qu’en créer un ? Lisez Je me suis fait punir à cause du hotlink pour vous assurer qu’un petit mail vaut mieux qu’une déclaration de guerre.

Attention tout de même aux webmasters qui vous envoient un mail de réponse type vous prenant pour un imbécile (du genre : ah c’est mal ? mais non, je t’assure.). Enfin, tant qu’ils vous enlèvent le contenu copié, ça va.

Et si le site ne répond pas, il faut passer aux grands moyens…

Halte au hotlink !

chevauchee_vengeanceDans le cas du Hotlinking, vous pouvez utiliser la vengeance ultime (cruelle mais tellement joussive) : remplacer l’image « volée » par une image de Q (si possible un truc bien sale). Le site voleur va donc afficher sans s’en rendre compte une image indécente à votre plus grande joie. Vous aurez évidement pris la précaution de changer le nom de votre image sur votre propre article.

Si vous savez bidouiller, il existe également des scripts automatiques anti-hotlink (anti-leech). Vous pouvez également modifier votre htaccess pour interdire l’affichage d’image sur d’autre site que le sien (lire anti_hotlinking et le très bon Mesures anti-hotlink et anti-leech). Et vous pouvez enfin utiliser des services comme Visohotlink (que je n’ai pas testé) qui pullulent sur la toile et qui promettent de gérer le hotlink pour vous (enfin, je n’installerais ces services qu’avec précaution si j’étais vous).

Sus au voleurs de contenus !

Pour éviter de se faire désindexer, pourquoi ne pas utiliser la nouvelle balise « canonical » pour éviter le duplicate content ? Et si vous êtes sous WordPress, un plugin vous aide à l’installer.

Mais si vous décidez de vous venger de ce site qui se fait de l’argent en utilisant votre sueur, il vous reste l’arme ultime : déposer une plainte aux moteurs de recherche.

et si ça suffit pas et que vous avez plein d’argent à dépenser (comme Deviant Art?) vous pouvez attaquer le site en justice (mais là, si le site est malin, vous pouvez en avoir pour 10 ans).

En savoir plus :

– max de lines internes