En passant

Content Spinning « naturel » grâce à l’Ingénierie Linguistique #TALN

Bonjour tout le monde !

Cela fait un moment que je n’ai pas eu le temps de développer des scripts Perl et autres outils d’automatisation ! Cependant, dans mon métier de SEO Manager, je dois régulièrement traiter beaucoup de données textuelles, et je pense utiliser plus amplement mes connaissances en ingénierie linguistique pour travailler certaines parties.

Parlant de données textuelles, je désigne avant tout la rédaction de méta tags, de contenu textuel, de URLs, etc. Pour les pages importantes, il faut bien évidemment optimiser à la main, mais pour les pages moins importantes, l’automatisation s’impose.

Voici un mini script Perl que j’ai développé ce matin pour remplacer un bout de la chaîne de caractères (« au bureau« ) par une autre (« aux alentours« ).

Script Perl - Automatisation content spinning - AUTOVEILLE

(J’ai pris une photo de mon écran de PC directement car je n’avais pas de WiFi …).

Une petite moulinette dans le Terminal de Linux et en voici la sortie :

Ingénierie linguistique - Outil SEO : Content Spinning - AUTOVEILLEL’expression « au bureau » a été remplacée par « aux alentours » comme on peut le voir dans la capture écran. L’exemple d’ici est très simplifié pour que tout internaute comprenne ce que je suis en train de démontrer. Pour faire le « remplacement » de mots-clés dans un long texte, il faut mettre en place plusieurs éléments (base de données de termes-clés, textes génériques, etc.)

Le content spinning bourratif est une technique non recommandée par Google. Mais de temps en temps pour créer des méta tags automatiquement ou des petits textes (dynamiques) descriptifs (pages produits, déclinaisons, etc.).

En tout cas, si vous êtes intéressés, n’hésitez pas à me contacter pour en parler.

Bon courage à tous !

Véronique Duong – autoveille@gmail.com

 

Image

Algorithme Hummingbird, Ingénierie Linguistique et Responsive Design ? Penser Mobile ! #SEO

Bonjour tout le monde 🙂

En ce samedi reposant, je m’amusais avec mon logiciel de veille à faire une veille stratégique sur des infographies rigolotes, et j’ai trouvé une illustration sur l’algorithme Hummingbird de Google. Récemment, on n’entend plus trop parler de lui (avec l’histoire du HTTPS qui a pris toute sa ampleur), et je me suis dit qu’il est bon de faire une petite piqûre de rappel.

Algorithme Hummingbird Google - AUTOVEILLEPour rappel, l’algorithme Hummingbird est un robot de Google qui vise à implémenter le web sémantique et à « sélectionner » les réponses à afficher dans les résultats de Google. Il a été mis en ligne début septembre 2013. Il est déployé dans le monde entier (90% des requêtes sont concernées).

Maintenant, si vous faites attention aux résultats de recherche de Google, vous verrez que le moteur réécrit souvent les titles et les méta descriptions  en fonction des requêtes des utilisateurs. Cet effet est lié à cet algorithme. En fonction des mots-clés saisis par l’utilisateur, Google va afficher les pages les plus pertinentes, mais également afficher un titre et une méta description différente de ceux de la page.

Donc, comment contourner un peu cet algorithme et ne pas avoir peur de cela ? (surtout quand on a passé un bon moment à optimiser son site …) ? Il faut penser au mobile pour s’adapter aux futurs algorithmes car plus de la moitié des recherches s’effectuent sur appareil mobile. Le Responsive Design reste une bonne solution.

L’infographie de Optimiz indique également que la recherche vocale est l’avenir du search sur mobile. La recherche vocale implique donc des requêtes plus longues (« Comment … ? », « Où … ? », « Pourquoi … ? ») car ce ne sont pas juste des mots-clés qui vont être tapés dans une barre de recherche. La recherche vocale implique donc aussi de l’analyse sémantique, d’où l’intervention de Hummingbird pour afficher les meilleures pages par rapport aux requêtes.

Doit-on avoir peur de l'algorithme Hummingbird ? - AUTOVEILLE

Au final, tout cela est issu de recherche et de développement d’ingénierie linguistique et du traitement automatique des langues. En ayant fait un Master dans ce domaine, cela m’a paru tout à fait logique dès la sortie de cet algorithme.

Lors de ma recherche universitaire pour mon mémoire, j’ai étudié tout ce qui est moteur de recherche et algorithme de recherche pour créer mon logiciel de veille (mots-clés, requêtes, collecte de pages web), et je pense que l’algorithme Hummingbird est également lié à ce qu’on appelle le TF-IDF :

Cette mesure statistique TF-IDF permet d’évaluer l’importance d’un terme contenu dans un document, relativement à une collection ou un corpus.

Je ne veux pas rentrer dans des détails trop compliqués que la plupart des personnes ne comprendront pas. Mais en gros, ce robot de web sémantique va plus ou moins pondéré les pages web de la base de données de Google et afficher celles qui correspondent au mieux aux demandes des internautes avec la réécriture de leurs snippets.

Voilà, j’espère que cet article vous aura plu. En tout cas, dès que je commence à parler de TAL, SEO, je n’arrive plus à m’arrêter haha.

Bon courage à tous !

Véronique Duong – autoveille@gmail.com