Je suis un(e) : Spécialiste web

Détourner les rankings de Google : Scraping et Cloaking en 2011

Cet article est une traduction de l’article Hijacking Google Rankings Through Content Scraping and Cloaking in 2011 d’Agustin Vasquez Levi d’AOD Marketing.

De la mise à jour Panda est sortie de bonnes choses comme de mauvaises, voire de très mauvaises, un peu à la sauce 1990, à la belle époque des tendances du contenu dupliqué à outrance (scraping content) ou dissimulé à tour de bras (cloaking). À force de jouer des vieilles techniques malicieuses, les résultats de recherche de certaines requêtes rappelaient Altavista en 99.

Commençons par dire que nous n’approuvons pas ces façons. En réalité, tout ceci a été découvert quand l’un de nos clients, freshtrends.com a été victime d’une attaque brutale par l’un de ses sites affiliés. Nous avions alors pris des mesures pour déclarer tous les sites portant atteinte à Google. Si nous rapportons cette histoire, c’est pour informer les webmasters et les inviter à se méfier. En effet, Google n’a pas encore été en mesure d’éliminer les problèmes de duplication de contenu (essentiellement ce que l’on appelle Googlewashing). Dans la lignée de cette tendance, la dissimulation de contenu côté serveur ou grâce au JavaScript semble nouvellement très à la mode.

La découverte du pot au rose

Suite à une baisse du trafic du jour au lendemain en raison de la “mise à jour Panda” nous avons commencé à enquêter sur les raisons potentielles qui auraient pu faire que le site ait été concerné par cette dévaluation. Les principales observations nous avions trouvé sur WebmasterWorld étaient de faible qualité, à savoir que les sites présentant des contenus dupliqués seraient touchés. Au début, nous avions rejeté cette hypothèse pour la simple raison que Freshtrends présentait des descriptions de produits uniques et créées une à une depuis des années.

En plus d’analyser les données sur Google Analytics, nous avons examiné d’autres indices afin de savoir où notre classement avait été perdu. Aussi, nous avons commencé à utiliser des parties  de texte comme des requêtes afin de voir s’ils étaient dupliqués. Nous avons alors remarqué que des milliers de mots clés de longue traine (s’apparentant à des pages de titres de produit), tels que “3mm Blue Zircon 14kt Yellow Gold Prong Set Labret” donnaient des pages et des pages de résultats de recherche « spammy » à la place de l’actuelle page d’origine de Freshtrends contenant cette information.

C’est ainsi que la majorité des 100 premiers résultats étaient composée uniquement de domaines spammy utilisant les extensions. tk ou .co.cc.

Voici quelques exemples des domaines trouvés
buy14g12whiteopalsolid14ktyellow6.tk/
buy18g38purpleopalsolid14kt.tk/
wholesale16gauge716solid14ktyellowresources.tk/
discount18g12blueopalsolid14ktwhite.tk/
bulkblackagatedoubleflaredstoneplugs8mm0gauge7.tk/
wholesale-16g-516-pink-opal-solid-14kt-white-6.tk/
bulknaturaljackwooddoubleflaredtunnels16mm58.tk/

Les copies d’écran sont disponibles ici et .

L’auteur était en fait un membre du programme d’affiliation de  Freshtrends avec Commission Junction. Cliquer sur les liens par le biais du moteur de recherche vous offrait une élégante redirection Javascript vers la page réelle du produit sur  Freshtrends.com (avec témoin d’affiliation). Rusé, n’est-ce pas ? Cet affilié détournait essentiellement le classement de Freshtrends de cette manière, envoyait le trafic n’importe où et coupait ainsi drastiquement dans les ventes.

Comment ce site affilié a-t-il trompé Google?

1. En utilisant les domaines en .tk et en co.cc, il a été en mesure de générer des noms de domaine uniques en nombre et gratuitement. Il lui a été ainsi pratiquement été possible d’ajouter un nom de domaine par produits offerts sur le site et créer des noms de domaine qui s’apparentaient ainsi à tous les mots composant un intitulé de produit (y compris les tailles et les variations du produit).

2. Le site affilié a ensuite détourné l’ensemble du contenu sur le domaine d’origine et ajouté des commentaires en utilisant un Twitter aléatoire. Des vidéos Youtube ont été également été utilisées, toujours au hasard. Les robots Google ont ainsi été trompés, croyant qu’il s’agissait d’une page active avec des commentaires et un contenu unique. Voir la cache Google pour l’une des pages de résultats http://www.aodmarketing.com/wp-content/uploads/2011/05/twitter-comments-on-bottom-small.jpg.

3. Le site affilié utilisait ensuite des redirections Javascript (cloaking) pour diriger les internautes vers le site présentant le contenu original.

Nous avons contacté Commission Junction à propos de cet utilisateur et ils l’ont rapidement enlevé.
Depuis lors, tous les domaines que nous examinons renvoient des erreurs 403 et sont ôtés des résultats de recherche.  … Mais, au moment d’écrire ces lignes il ya encore des copies en cache de Google avec les scripts JS qui sont utilisés pour les redirections.

Nous avons également contacté Google à propos de cette affaire. Il nous semblait, en effet, impossible que les 100 premiers résultats de recherche pour un produit pouvait en fait être des URL de spam avec une extension en. tk. Nous parlons ici des résultats de Google en 2011 ! Ces mêmes résultats sont symptomatiques des sites de spam d’il y a quelques années et ils dominent les SERPs.

Pendant ce temps là, Bing n’a posé aucun problème. En fait Freshtrends.com se trouve sur la page de résultats pour les requêtes et aucun domaine en .tk n’est sur la 1ère page. Peut-être que l’indexation de Google est tellement rapide qu’elle ne peut pas se suivre elle-même, et n’a pas eu le temps de tenir compte de la qualité … même après une mise à jour se réclamant de cette bataille.

Tout dans ce qui est écrit dans cet article l’a été avec la permission de Freshtrends.com, dans la mesure où ils voulaient autant que nous voir la lumière faite sur ces pratiques douteuses. Quelqu’un aurait-il vu des exemples récents flagrants ce type et aimeraient les partager?

Cet article a été rédigé par Lydie Padilla

Partagez cet article

Laisser un commentaire

Merci de taper les caractères de l'image Captcha dans le champ

14 commentaires

  1. Article très intéressant. Comme quoi Google la force d’indexation de Google joue contre lui… :o )

    Envoyé le 10 juin, 2011 par Infosimmo
  2. On peut jouer en effet sur l’indexation de Google en jouant un peu sur des nom de domaine assez anciens afin d’indexer toutes sortes de contenus même externe.
    Ca, c’est déjà un gros point faible, mais ce qu’a fait votre gars, c’est vraiment malin, mais tellement salaud pour votre client…

    Envoyé le 10 juin, 2011 par reftuto
  3. Bonjour Lydia,

    Bienvenue dans le monde du spam chez Google ! Et oui, en 2011 c’est encore possible et ça a même été rendu plus facile avec l’autorité des liens, facteur n°1 des classements sur Google.

    Une maj de Panda devrait faire en sorte que cela n’arrive plus mais je n’y crois pas. Je vous conseille de renseigner sur le Negative SEO, notamment la partie Duplicate content externe.
    Et pour d’autres exemples, c’est très bien expliqué chez SEOMoz : http://www.seomoz.org/blog/postpanda-your-original-content-is-being-outranked-by-scrapers-amp-partners

    Un très bon article en tous cas :)

    Envoyé le 10 juin, 2011 par Vincent
  4. 1000 excuses pour l’erreur sur le prénom :)

    Envoyé le 10 juin, 2011 par Vincent
  5. C’est le problème au départ de l’affiliation me semble-t-il.

    A l’affilié d’employer les méthodes pour faire fructifier ses revenus.

    Après, il y a la manière, c’est un combat pour rester dans l’éthique , ou pas.
    Ces ruses savantes , si elles ont été prises en compte au départ par Google, n’auraient peut etre pas durées. Google indexe très vite un site, surtout nouveau. Mais il met du temps pour ensuite l’analyser, un bon mois, voir plus si il y a des éléments multimédia.

    Est-ce le cas?

    L’affiliation , c’est comme adsence, c’est un gros pot de miel ouvert a tout les gourmands, il ne faut pas leur jeter la pierre , les débordements sont humains… et les abus aussi.

    Envoyé le 10 juin, 2011 par Marc.L
  6. En 2004/5/6 une sté vendait des redirection spam, cela a fait la fortune de M. (e… f…) et consort. Du CPC en click javascript avec 50% de clics lol . Trop top ! Dommage pour les annonceurs qui ont vue leur chiffres dégringoler, alors que leur coup de pub augmentait ;-) . Le pire c’est que ce spam tout le monde en as acheté à l’époque. Même google. Faut dire que c’est les Fai qui vendaient leur poubelles derrière …

    http://forums.grenouille.com/index.php?s=0ce63ae4109902500ad44b134d607584&showtopic=70786&st=660

    Envoyé le 10 juin, 2011 par creak purifier
  7. Frustant
    je vais une formation, je paie les services d’un pigiste (bref ca coute et cela prend du temps) le tout pour sortir un nouveau site web

    7 jours apres la sortie je retrouve le contenu scrappé:
    - memes phrases , memes idees
    - on change 2/3 mots par phrase
    - on repete a volonte l’expression cible
    - on change l’ordre des phrases
    - on separe 1 article en 3 et hop on multiplie par 15

    Le plus drole c’est que celui qui a fait ca est un blogueur qui ecrit sur son site et dans un livre que c’est le contenu qui compte ! Faut bcp d’humour !

    J’hesite encore a lancer une procedure ou a mettre la chose sur la place publique puisqu’il n’a pas reagi a la lettre de mon avocat.

    2 gagnants : Adsense et lui
    2 perdants : moi et les internautes (un peu) car cela calme de facto les ardeurs editoriales

    Envoyé le 10 juin, 2011 par Cyril
  8. Les spammmeurs vont aimer ça!
    Et en plus c’est gratuit!

    À force de chercher d’être le plus fort et le plus sophistiqué sur le marché, Google prends parfois un air très vieux!

    Mais on aime malgré tout le travail qu’ils ont pu faire depuis 99 ;)

    Envoyé le 12 juin, 2011 par Geekle.net
  9. Le vrai coupable c’est google adwords !

    Depuis 2-3 ans ils ferment les comptes à gogo et il devient très difficile de lancer une campagne pendant plus de 4-5 jours sans recevoir une menace de fermeture à cause de contenu ne respectant pas leurs consignes (aussi farfelues que floues et arbitraire au demeurant).

    Amha Google essaie de tuer l’affiliation, car les annonceurs qui font des campagnes en direct ont les moyens de payer plus chers, et donnent à Google un contrôle global meilleur.

    Les affiliés utilisent donc tout ce qui est possible pour continuer à apparaitre sur la première page de google… dans les SERP puisque les adwords leurs sont refusés (évidemment 2 affiliés d’un même produit ont des contenus similaires, ce qui donne toujours une bonne raison à Google pour fermer le compte… ce n’est qu’un exemple)

    Et je ne parle pas des marchands de bonne foi, qui ont un contenu original et vendent leur propre produits, mais qui voient quand même leur compte fermé par adwords sans *aucune* explication => et à moins d’avoir un contact direct chez google, ce qui est réservé aux “gros” acteurs, il est impossible de faire réouvrir les comptes pour le commun des mortels

    => l’injustice et la frustration ressentie conduit naturellement à chercher des alternatives borderline, et je trouve que ceux qui s’étonnent de cette situation sont vraiment de mauvaise foi, l’histoire de freshtrends exposée ici est une conséquence *logique* et sans surprise

    Envoyé le 13 juin, 2011 par David S.
  10. Google a beau essayé de corriger ses problèmes de spam, il n’y arrivera jamais totalement. Ce qu’il corrige d’uin côté, il le casse de l’autre. D’autant plus qu’à génie, génie et demi. Pour chaque modification devant enrayé le spam, de petits malins trouveront le moyen de la contourné ou de s’en servir à leur propre compte.

    Envoyé le 14 juin, 2011 par Stéphane
  11. Cet exemple m’a beaucoup aidé à comprendre comment les stats peuvent dérailler et il est utile de savoir pourquoi surtout quand notre rendement d’employé en dépend…

    Envoyé le 14 juin, 2011 par Patrick Hamel
  12. C’est quand même le comble des annonceurs de se plaindre que ses affiliés “traficophage”.

    Y’en a marre de ces annonceurs qui se plaignent de faire des ventes et de perdre du trafic direct, cet article est un scandale. Google déclare en permanence qu’il n’est pas “Le Internet” mais en mm temps il passe son temps à exploiter des remontés d’information d’annonceurs balançant les innovations technologiques des développeurs affiliés qui impact les dits annonceurs. Mais ce n’est pas possible de voir et lire ça. C’est scandaleux, honteux en tant que développeur j’innove et en quoi puisque Google clame ne pas être Internet cela pose un problème que j’innove ou que mon architecture de site web soit comme ci ou comme ça. En quoi devrais-je ou pas respecté les CGU de Google dans mes pratiques de développement ce n’est pas moi qui utilisé Google c’est Google qui utilise mes sites c’est à lui de respecté mes CGU et si il décide d’indexer mes sites je n’en suis pas responsable.

    par contre du jour au lendemain parce qu’un annonceur soit disant se trouve en manque de notoriété via le moteur de recherche google qui clame toujours ne pas être Internet on lance le grand ménage.Non mais ou va-t-on ???

    c’est tout de même fou cette pratique de couper le tuyau qui te nourris parce que des termes génériques sont en DC parce que je lis la qu’il y’a du domaines spammy non mais savez-vous de quoi vous parlez !!

    “3mm Blue Zircon 14kt Yellow Gold Prong Set Labret” est-ce une marque déposé ce contenu peut-il être classifié avec un droit d’auteur ??

    Je ne supporte pas que l’on diabolise les techniques qui ont été baptisé
    Cloaking, Scraping ce dernier à participer et participe massivement au succès de Google;

    Internet est une zone libre Google n’est pas le gendarme de l’internet soit il représente l’ouverture du web dans sa diversité soit il n’est dans ce cas qu’une réalité commerciale de l’internet au service d’annonceur peu scrupuleux.

    Voila ce que j’en dis !

    Envoyé le 16 décembre, 2011 par Daminux