Réagir au vol de contenu provenant de votre site (texte et/ou image)
J’imagine que pas mal de webmasters ont déjà vécu le vol de contenu. Des petits malins (enfin, pas tant que ça…) font un simple copier/coller de votre contenu, parfois texte, parfois image, voire les deux. Cette opération, facile à réaliser, est faite par des webmasters peu scrupuleux, sans aucune éthique ni respect pour le travail des autres.
Dans cet article, je vais aborder les façons de s’en apercevoir, de s’en prévenir et, surtout, les méthodes pour faire valoir la suppression de ce contenu volé.
Déjà, pourquoi vouloir se prémunir du vol de contenu ? Les raisons me paraissent limpides, mais il est toujours bon de le rappeler.
Évidemment, qui souhaite que son contenu (que l’on a passé du temps à écrire, à peaufiner, etc.) se retrouve copié-collé sur un autre site sans autre forme de procès ?
Mais il y a également le point de vue SEO, à ne surtout pas négliger, car Google n’aime pas le contenu dupliqué. À partir d’un certain pourcentage de similarité, le moteur doit faire le choix, et pour cela son algorithme se base sur plusieurs facteurs : l’ancienneté des pages, le nombre de backlinks, les liens internes, le PageRank de la page, etc. L’une voire les deux pages identiques peuvent se retrouver largement déclassées, voire supprimées de l’index du moteur. Et cela peut parfois impacter sur le référencement de votre site en général.
Il est donc important, en tant que webmaster, de prévoir le vol de contenu, et de savoir y remédier dans la mesure du possible.
La première chose à savoir, c’est qu’il n’y a pas de recette miracle faire au vol de contenu.
Ce n’est pas franchement rassurant, certes, mais à moins de passer un temps fou à faire de la veille précise adaptée à cette exaction, il n’existe pas (à ma connaissance) de technique absolue et instantanée pour savoir quand votre contenu se retrouve dérobé.
Car il faut bien différencier contenu volé et duplicate content. Ce-dernier regroupe l’existence d’un même contenu à différents endroits sur Internet 📶, au-delà du vol : flux RSS, absence de choix du domaine préféré (avec ou sans les www)…
Pour se prévenir de ce que j’appelle l’ « auto duplicate content », le référencement préconise l’utilisation de la balise canonical. Entre autres bienfaits, elle permet d’indiquer aux moteurs une URL unique de chacun de vos contenus originaux. Pour l’astuce technique, elle se positionne dans la balise <head> de chacune de vos pages et prend la forme suivante :
<link rel="canonical" href="#">
Mais c’est ce qui met en relief la première partie du problème : il est difficile de s’apercevoir du vol.
En tant que webmaster, il m’est arrivé de recevoir des mails de lecteurs m’indiquant que tel contenu de Kanpai s’est retrouvé copié-collé sur un autre site. Évidemment, sans qu’on m’en ait informé.
Car pour être très clair : je ne suis pas contre que l’on extraie une petite partie d’un de mes articles, avec un lien vers la page source (et j’apprécie qu’on m’en informe, même si je n’en fais pas une maladie si ce n’est pas le cas).
Mais quand on parle de vol de contenu, c’est généralement une duplication simple de toute la partie éditoriale d’une page, parfois même avec les images, sans prévenir et sans faire de lien vers l’article original.
Cela m’est déjà arrivé deux ou trois fois. Ou plutôt, je m’en suis déjà aperçu deux ou trois fois. Qui sait si ce n’est pas plus le cas, en ce moment même ?
Je passe sur le côté éthique du webmaster (plus exactement, son absence) vis-à-vis de lui-même et surtout de ses lecteurs, mais généralement ce genre de personne n’a que peu de scrupules.
Donc, la première chose à faire lorsque vous constatez qu’un de vos contenus a son jumeau ailleurs : contactez le webmaster du site responsable du vol. La plupart du temps, ce sera par mail voire en laissant un commentaire sur l’article incriminé, mais le plus simple est encore de le faire par téléphone 📱 si vous arrivez à obtenir cette coordonnée (s’il s’agit d’une entreprise, par exemple). Notez que le Whois offre souvent des renseignements assez précis sur les responsables de site.
Personnellement, j’écris quelque chose de simple par mail, de pas agressant. A priori, je pars du principe que cette duplication n’est pas faite dans une démarche irrespectueuse, mais plutôt gentiment irresponsable. D’autres préfèrent un ton plus direct, quitte à citer des articles de loi.
Je suppose qu’il n’y a pas de méthode absolue et que le contact sera interprété différemment au cas par cas.
À partir de là, plusieurs possibilités s’offrent à vous (je vais tenter de les lister de la plus avantageuse à la plus contraignante) :
- On vous répond en faisant amende honorable et en précisant que le contenu dupliqué sera retiré. N’oubliez pas de vérifier quelques jours plus tard que ça ait bien été fait, quitte à relancer la personne, pour vérifier qu’on n’essaye pas de vous endormir.
- On ne vous répond pas. À vous de relancer, voire sur une autre adresse mail, à d’autres coordonnées. Au pire, vous pouvez laisser un commentaire plus ou moins direct sur l’article incriminé pour exposer publiquement le problème.
- On vous répond d’aller visiter la Grèce car la population y est paraît-il sympathique. Vous pouvez donc poster un commentaire public / répondre en citant des articles de loi (articles L112-1 et suivants du code de la propriété intellectuelle, en particulier les L122-4 et L335-2 qui précise que c’est un délit) / demander une suppression de contenu à Google (mais c’est une procédure lourde, longue et pénible) / contacter l’hébergeur (ce qui a peu de chances d’aboutir, soyons réalistes) / faire de la mauvaise pub au site voleur sur le vôtre (mais c’est à double tranchant car vous le mettez également en lumière) / etc…
Au sujet des images en particulier (si un fichier image hébergé sur votre serveur se retrouve sur un autre site, on appelle ça du hotlinking), la question et les plans d'action en aval diffèrent légèrement.
Cela dépend, évidemment, s'il s'agit d'images à Droits Réservés (par exemple, un screenshot de jeu fourni par l'éditeur, une couverture de livre, etc.) ou si les droits vous reviennent, par exemple s'il s'agit d'une photo que vous avez prise vous-même.
Dans le premier cas, vous n'avez bien sûr pas de latitude d'intervention. En revanche, pour se prémunir du second cas, il existe différentes méthodes. Je pense à deux d'entre elles en particulier :
- mettre un watermark sur chacune des images dont on possède les droits. C'est à dire, par exemple, un rappel du nom ou de l'URL de votre site, incrusté dans un coin de l'image à l'aide d'un logiciel de retouche. Je trouve que, globalement, c'est une solution intéressante et pas trop dérangeante pour le contenu de l'image, tant que c'est fait discrètement. En tout cas, c'est ce que font beaucoup de gros sites ;
- vous pouvez également bloquer le hotlinking à la source en positionnant une "dummy image", qui affichera le fichier de votre choix dans ce cas, quelle que soit l'image volée. Personnellement, je trouve que cela ne donne pas une très bonne image du site (ça le rend "fermé") et je préconiserais l'utilisation de cette technique uniquement dans des cas précis, comme le hotlinking massif et répété, ou la limitation ferme de bande passante.
Pour ceux que ça intéresse, voici le code à placer dans son fichier .htaccess :
RewriteCond %{HTTP_REFERER} !^$
RewriteCond %{HTTP_REFERER} !^http://(www\.)?mondomaine.com(/)?.*$ [NC]
RewriteRule .*\.(gif|GIF|jpg|JPG|bmp|BMP)$ - [F]
Dans tous les cas, il est important de bien suivre l'utilisation de votre bande passante, grâce aux statistiques de son serveur fournies généralement via l’interface d’administration de votre hébergeur. À vous de réagir en fonction des fluctuations, ou de laisser libre les utilisateurs de faire du hotlink. Personnellement, je n'y suis pas défavorable, et jusqu'à présent, cela m'a surtout rapporté des visiteurs plutôt que l'inverse.
Je n’ai volontairement pas parlé de vol de design ou de copier-coller entier de nombreux articles. Là, c’est un peu plus lourd et je pense que, si l’idée est la même, le traitement ne sera pas aussi clément envers le site incriminé. Je n'ai pas encore eu affaire, et heureusement, à ce cas.