Il n’est pas rare de voir ses propres contenus recopiés à droite et à gauche par différents sites plus ou moins bien intentionnés, qui cherchent trop souvent à monétiser votre contenu ou bien à bénéficier de vos contenus pour leur propre référencement. C’est en voyant passer des twits aujourd’hui, sur le fait que Blogbang s’est mis à indexer salement sur son site les contenus de tous les gens qui utilisent cette plateforme publicitaire, que j’ai eu une idée lumineuse (enfin je crois :-)) pour limiter ce genre d’abus.
La plupart des robots/sites/voyous qui tentent de s’approprier votre contenu le font en utilisant le contenu de votre flux RSS. Et dans la plupart des cas, pour trouver votre flux, ces système utilisent ce que l’on appelle l’autodiscovery, un mécanisme qui fonctionne en indiquant aux robots dans une balise HTML spécifique de l’entête de votre quelle est l’url de votre flux. Ce système est aussi utilisé par les navigateurs pour afficher l’icone “RSS” dans la barre d’adresse afin de vous permettre de vous abonner facilement.
L’idée est donc de faire en sorte que par ce mécanisme, les robots ne trouvent pas votre flux contenant l’intégralité de vos articles, mais plutôt qu’ils détectent un flux spécialement conçu pour eux, ne contenant que des résumés très courts de vos articles. Pour cela c’est assez simple: vous allez sur Feedburner, et vous créez un flux RSS que vous configurer pour ne présenter que des articles tronqués (via l’onglet “Optimize” / “Summary Burner”). Une fois ce flux généré, deux possibilités:
* Vous avez un gros encart sur votre site pour inciter les gens à s’abonner, avec en particulier le lien RSS, auquel cas, vous pouvez vous passer de l’autodiscovery comme méthode d’abonnement, et alors il suffit de remplacer dans l’entête de votre site la balise:
par la balise
* Vous souhaitez que les navigateurs continuent de proposer le lien d’abonnement correct dans la barre d’adresse, auquel cas, au lieu de remplacer la balise comme indiqué précédemment, il vous suffit d’ajouter la balise pointant vers votre flux tronqué avant la balise pointant vers votre flux intégral. En effet, lorsque les robots tombent sur plusieurs balises précisant un flux, ils ont tendances à prendre la première (conformément aux spécifications de l’autodiscovery).
Des deux méthodes, la première est la plus radicale, car avec la seconde méthode, un robot très intelligent pourrait détecter l’astuce.
Voila, avec ce système, vos utilisateurs continuent à s’abonner à votre flux normal, mais les robots auront tendance à récupérer votre flux tronqué… Alors elle n’est pas lumineuse l’idée ?
Je viens de la mettre en place sur Veille Perso et les articles sont tronqués à 50 caractères 😉
Update :
J’ai peaufiné la méthode, et il existe une troisième solution, qui à mon avis est la meilleure. D’abord on remplace le flux normal par le flux tronqué dans l’entête du blog (selon la méthode de la première solution), puis en fin de page, avant la balise </body>, on ajoute le javascript suivant (à personnaliser avec vos urls de flux):
<script type=”text/javascript”>
try {
var links = document.getElementsByTagName('head')[0].getElementsByTagName('link');
for(i = 0; i < links.length; i++) {
if (links[i].href == 'http://mon_flux_tronqué') {
links[i].href = 'http://mon_flux_intégral';
}
}
} catch (e) {};
</script>
@@
Ce script permet de remettre, via du javascript, la bonne url d'autodiscovery (celle avec les articles en intégralité). Ainsi une personne qui s'abonne en utilisant le picto RSS de la barre d'adresse de son navigateur aura bien le flux avec les articles "entiers" alors qu'un robot quelconque ne verra que le flux tronqué ... CQFD 😉
Je viens de faire le test en récupérant ton flux via mon agrégateur Netnewswire et il est tronqué ! Je n’ai pas la totalité de ton contenu :/
Donc ça fonctionne 😉
Maintenant seuls ceux qui s’abonneront sans utiliser l’autodiscovery (cad en copiant/collant l’url du flux RSS) auront donc le flux complet …
Il faut juste que je trouve un moyen d’indiquer plus clairement dans le flux tronqué comment s’abonner au flux complet, histoire d’aider les gens qui ne connaissent pas bien le RSS 😉
Non à la discrimination anti-robots ! Oui à l’égalité des droits !
Bon je plaisante mais l’idée est très bonne, même si la première méthode est violente tout de même…
en même temps Blogbang ne pompe que deux lignes par articles, puis met un lien vers l’article original. Ils tronquent eux même, c’est pas du plagiat.
@François c’est juste violent pour les gens qui s’abonnent via le lien de la barre d’adresse (ce que je ne fais jamais)
@Joseph, Blogbang n’etait que le pretexte à la reflexion… Donc plutôt que de dépendre du bon vouloir et de l’honnêteté de chaque aggregateur, mieux vaut prendre les devant et ne leur donner à manger qu’un contenu minimal 😉
Pour enrichir l’idée, je propose d’utiliser l’astuce 1 et d’ajouter à chaque message du flux tronqué un lien vers le flux entier et un message explicite que les lecteurs comprendront.
Penses-tu que ça peut marcher ?
@Lionel, c’est ce que j’ai fais en demandant à Feedburner d’ajouter le texte suivant à la fin de chaque article tronqué:
“Pour lire cet article en intégralité, rendez-vous sur http://www.veilleperso.com, où vous pourrez aussi vous abonner au flux contenant chaque article du blog Veille Perso dans leur intégralité.
Le flux RSS auquel vous vous êtes abonné est principalement destiné aux robots ;-)”
(feedburner ne permet pas d’ajouter de texte HTML, donc a priori le lien n’apparaît pas sous forme de lien dans le flux, mais bon cela donne tout de même une piste)
@all je viens de mettre à jour l’article avec une troisième méthode : via un javascript on remplace l’url d’autodiscovery “tronquée” par l’autodiscovery “normal” ce qui permet aux gens de continuer à s’abonner normalement avec le picto RSS de leur navigateur, tout en s’assurant que les robots ne voient que le flux tronqué 😉
Cette méthode pose tout de même un problème : elle ne tient pas compte du robot, ne tient pas compte de l’utilisation qui en est faite.
BlogBang par exemple, pourrait très bien utiliser ce flux pour récupérer des mots clés, afin d’orienter ou de cibler au mieux les annonceurs. Ca risque aussi de poser des problèmes à Technorati, Twingly, etc. Mais il est vrai que d’autres profitent de ce flux pour dupliquer le contenu d’un blog…
La solution que j’utilise pour le moment : le cas par cas. Et vu que je n’utilise pas FeedBurner, c’est encore plus simple, j’ai une maîtrise totale sur la lecture de mon blog. Quand PaperBlog a commencé à pomper mes articles, par exemple, je n’ai pas réfléchi longtemps : Une simple règle sur le firewall du serveur pour bloquer leur IP, et leur bot ne pouvait plus lire mon contenu.
Cependant, je suis conscient que ma méthode n’est pas applicable à tous.
Dans un sens c’est vrai que gérer cela au cas par cas serait l’idéal, d’un autre coté cela peut être une véritable galère vu le nombre de sites qui peuvent agréger sauvagement ton contenu.
Dans ce cas, plutôt que de gérer une blacklist, il vaut probablement mieux gérer une whitelist de robots autorisés non?
Faire la distinction entre un robot et un utilisateur n’est pas toujours évident. Faire une whiteList de robots risquerait de bloquer, à tord, certains utilisateurs.
Je préfère donc l’idée de la blacklist, pour bloquer les sites les plus dangereux. Car, honnêtement, je ne souhaite bloquer que les robots qui nuisent à mon référencement : il est donc très simple de les trouver, via Google.
Le flux tronqué permet de limiter la repompe mais agace fortement le lecteur assidu.
Quand je lis mes flux, je scanne ce qui m’intéresse dans le titre et le texte.
Un flux tronqué ne m’offrira pas suffisamment de matière à lire donc tout se jouera dans le titre.
Je ferai l’effort d’aller cliquer pour un blog à faible activité (genre 1 fois par semaine) mais à 1 article par jour, je me désinscris purement et simplement.
@Oncle Tom, tu as mal compris mon article: tout l’art de la chose est justement de continuer à proposer aux lecteurs “normaux” de s’abonner à un flux intégral (et donc non tronqué) pour qu’ils ne changent rien à leurs habitudes, et ne délivrer ce flux “tronqué” qu’aux robots et autres sites mal intentionnés…
En aucun cas mon article ne suggère de fournir des flux tronqués aux lecteurs assidus bien au contraire 😉
pour limiter la repompe faudrait déjà être influent!
Je veux bien adopter ta technique moi mais … apprends-moi à être influent 🙂
@Nicolas, ah bah t’es pas au bon endroit mon bon monsieur … Ici il n’y a que du bloggeur qui dit ce qu’il pense: pour l’influence faut aller chercher dans le top100 général de wikio 😉
Oh bah on m’aurait menti … 😉
Ta technique bien qu’elle ne me concerne pas vraiment parait une très bonne alternative au regard de ceux qui pour ne pas voir leur contenu repris ailleurs tronque leur flux au détriment des lecteur.
J’aimerais éviter le repompage de mon blog. Sur blogger, c’est possible? J’ai regardé le code html, mais pas trouvé cette balise
Triturer du code c’est pas trop mon truc… Merci
En fait sur blogger dans “paramètres” – “Flux d’actualisation” on peut choisir entre un flux partiel ou complet, ou même aucun flux.
C’est pratique, même si on ne peut pas choisir la longueur du texte capturé.
Voilà, du coup je me réponds à moi-même. Vive internet!
très sympa tout ça 🙂
Merci pour ces infos.
Si une solution pouvait etre en natif dans WordPress ce serait le best ou alors que tout le monde aime les flux tronqués mais ce n’est pas le cas 🙁
Pour limiter l’impact de la recopie de votre flux, utilisez RSS footer http://bit.ly/VJcS et balancez 2-3 liens vers votre blog en footer, ca calme un peu en attendant mieux
Se faire voler son contenu c’est clair que ce n’est pas très drôle. On se grillent les neurones pour arriver à produire des articles de qualité pourquoi ? Se faire doubler dans les SERP. A non ça passe pas. Sur mon blog WordPress j’ai mis en place un plugin très complet d’envoi de news qui me convient à la perfections. Ce plugin est MailPress pas mal du tout.
Ma question est : pensez-vous qu’un flus RSS c’est mieux qu’une newsletter tronquée ? en terme de taux de clic …
Le rss et l’email sont complémentaires: certains de vos lecteurs préfèrent avoir un flux RSS, d’autres une newsletter.