GPT-3 vs crawl prédictif : la cause du problème d'indexation Google ?
- Sommaire
- Problèmes d'indexation Google, qu'en est-il ?
- Zoom sur GPT-3 d'OpenAI
- Crawl prédictif : Google riposte
- Crawl prédictif : son impact sur le SEO
- GPT-3 vs crawl prédictif : notre constat
Depuis quelque temps, les professionnels du référencement naturel (SEO) et les webmasters constatent avec désarroi des problèmes d'indexation chez le moteur de recherche Google. Tous les types de pages web semblent touchés : sites internet d'autorité, blogs WordPress, petits sites web, sites e-commerce… Pour beaucoup d'experts, ce comportement étrange des robots d'indexation serait dû à l'avènement du crawl prédictif de Google, la supposée réponse du moteur à l'intelligence artificielle GPT-3. Cette dernière devrait changer d'ici quelques années le visage du référencement naturel et donc potentiellement les résultats de recherche. SEMJuice vous livre son analyse de la situation sur les hypothèses émises à l'heure actuelle.
Problèmes d'indexation Google, qu'en est-il ?
Dans un article publié récemment sur notre blog, nous avons abordé un problème qui agite la sphère du référencement naturel depuis quelque temps : les difficultés de crawl et d'indexation des pages web sur Google. En effet, les règles du jeu en matière de crawl semblent avoir vraisemblablement changé ces derniers mois chez Google. Les propriétaires de sites internet éprouvent désormais de nombreuses difficultés à faire indexer les URLs de leurs pages web par les robots d'exploration du moteur de recherche. Pour certains, les méthodes permettant habituellement de forcer ou d'accélérer le crawl et l'indexation des nouvelles pages web mises en ligne semblent même ne plus résoudre le problème. Il s'agit de la soumission d'URLs par Google Search Console, le netlinking, la création de liens entrants depuis les réseaux sociaux, les outils d'indexation… Googlebot ne veut tout simplement plus indexer toutes les pages des sites internet !
Comme c'était déjà le cas il y a quelques semaines, la firme de Mountain View continue de garder le silence sur l'origine du problème, car aucune communication n'a été faite dans ce sens. Dans la communauté des référenceurs, utilisateurs de Google, webmasters et consultants SEO, les spéculations vont bon train. L'une des hypothèses les plus pertinentes est que les récents soucis de crawl et d'indexation des pages web sur Google seraient dans une certaine mesure dus à GPT-3, l'intelligence artificielle génératrice de contenus.
Zoom sur GPT-3 d'OpenAI
GPT-3 (Generative Pre-trained Transformer 3) est une nouvelle technologie qui fait parler d'elle depuis quelque temps dans l'univers du référencement SEO et des moteurs de recherche en général.
Qu'est-ce que GPT-3 ?
GPT-3 est une intelligence artificielle développée par l'entreprise OpenAI, cofondée par Elon Musk et Sam Altman, et lancée en juin 2020. L'une de ses fonctions principales est la génération de textes. Considéré par le New York Times comme « le modèle de langage le plus puissant n'ayant jamais existé », ce gigantesque réseau de neurones embarque 175 milliards de paramètres, soit plus de 100 fois ce que possédait sa précédente version (GPT-2). Pour générer du texte GPT-3 utilise des algorithmes réentraînés à partir de 570 Go de données (textes) provenant de diverses sources : Wikipédia, CommonCrawl.
Dans la pratique, cette intelligence artificielle peut faire beaucoup de choses dans le domaine du web marketing et au-delà. Étant donné qu'elle est capable de créer rapidement n'importe quel type de contenu de façon presque autonome, elle peut être utilisée pour :
- la rédaction d'articles d'actualité,
- la rédaction de poèmes ou d'essais,
- la création de récits de fiction,
- la génération d'un contenu SEO de qualité dans n'importe quel style
Comme tout autre outil informatique, GPT-3 a cependant ses limites. La création rapide de contenu peut avoir des insuffisances importantes et le contenu n'est parfois pas si qualitatif que prévu. En effet, puisque l'outil s'appuie sur des données existantes pour créer de nouveaux contenus, il est souvent difficile d'obtenir des textes entièrement originaux. De plus, GPT-3 peut avoir du mal à créer du contenu vraiment personnalisé pour une page web de marque ou une page d'entreprise. Enfin, sur des sujets sensibles où le contenu et les données existants sont biaisés, la probabilité est forte que le contenu automatique généré soit également biaisé, car GPT-3 va difficilement distinguer le vrai du faux.
Il convient de rappeler qu'aucun robot ne peut véritablement remplacer la qualité humaine. Un rédacteur SEO humain peut transmettre des émotions à travers un contenu, ce qu'une intelligence artificielle n'est pour le moment pas en mesure de faire. S'appuyer uniquement sur GPT-3 n'est donc pas une bonne idée pour la mise en place d'une stratégie de contenu qualitative et orientée vers l'expérience utilisateur.
GPT-3 et le référencement naturel
Pour beaucoup d'experts, l'avènement de GPT-3 marque un tournant dans l'univers du référencement naturel (SEO), et en particulier pour la création de contenu. La capacité de cette intelligence artificielle à produire rapidement du contenu de type humain et à faire naturellement usage des bons mots-clés risque de changer le visage du secteur. Les moteurs de recherche tels que Google verront ainsi probablement leur nombre de contenus augmenter considérablement puisque les webmasters et référenceurs SEO pourront en créer plus facilement dans le but d'attirer plus de trafic organique et de générer conversions.
Pour suivre ce nouveau rythme, les moteurs de recherche devront accroître leur budget de crawl global (pour augmenter le nombre d'URLs indexées) ainsi que le budget de crawl alloué à chaque site internet. Nous pouvons donc supposer que Google est en train de s'adapter à cette nouvelle intelligence artificielle, cela dans le but de ne pas gaspiller son budget de crawl pour des pages web non qualitatives.
Crawl prédictif : Google riposte
Il y a fort à parier que Google prévoit une riposte à la sortie des outils d'IA de création de contenu automatique et se prépare à affronter ces multitudes de nouvelles pages web à venir. Le crawl prédictif de Googlebot semble être pour l'instant son arme secrète.
Le Crawl prédictif de Google : de quoi s'agit-il ?
L'origine du concept remonte en 2019, lorsque des chercheurs de Google ont publié un article qui présentait des méthodes de crawl permettant d'utiliser moins de ressources serveur pour explorer le web de façon intelligente. En effet, Google semble désormais vouloir identifier ce qui est prioritaire à crawler afin de maximiser l'efficacité de ses robots de crawl. La société effectue cela dans le but de réduire les coûts liés à l'utilisation de l'électricité et au fonctionnement de ses datacenters.
Comme l'a confirmé Martin Splitt (chargé des relations avec les développeurs web chez Google) en 2020, le moteur de recherche utilise le machine learning pour prédire la qualité pouvant être obtenue d'un crawl avant même sa réalisation. La mise en place de cette technologie de crawl prédictif, encore appelé crawl utile ou indexation sélective par certains experts du référencement naturel, permet au moteur de recherche de :
- planifier intelligemment l'exploration et l'indexation des URLs des pages web,
- crawler plus vite les sites internet,
- utiliser moins de temps pour le crawl et l'indexation des pages web et contenus de « mauvaise qualité »,
- éviter de gaspiller des ressources serveur pour des indexations peu qualitatives.
Googlebot ne va donc pas crawler puis indexer systématiquement chaque nouveau lien ou nouvelle URL d'un site, mais uniquement si celui-ci semble qualitatif aux yeux de l'IA du moteur de recherche.
Crawl prédictif : son impact sur le SEO
L'évaluation de la qualité des pages web par l'IA avant leur exploration par les robots de Google n'est pas sans impact sur le SEO. En effet, nous pensons que le crawl prédictif mis en place par le géant de Mountain View est le « facteur X » à la base des nombreux problèmes d'indexation que rencontrent depuis quelque temps les référenceurs, webmasters, et gérants de sites internet avec Google.
Même s'il n'y a eu aucune communication officielle sur le sujet, le moteur de recherche semble se préparer doucement à l'apparition des nouvelles pages web autogénérées. Cela a pour conséquence que ses systèmes de crawl et d'indexation ne fonctionnent plus aussi bien qu'avant. L'hypothèse d'un bug n'est donc pas la seule explication du problème selon nous. Google a bien la possibilité de corriger ces soucis et de revenir en arrière comme il a pu le faire à plusieurs reprises par le passé.
Pour la petite histoire, Google avait déjà connu des problèmes de crawl et d'indexation en septembre et octobre 2020, mais qui ont été rapidement résolus. Les bugs concernaient entre autres l'indexation des pages web dans Google Actualité, l'index mobile-first et l'URL canonique. L'outil de demande d'indexation d'URL via Google Search Console avait même été momentanément désactivé avant d'être remis en service.
GPT-3 vs crawl prédictif : notre constat
La mise en œuvre du crawl prédictif par Google face à la démocratisation des outils d'IA générateurs de contenus tels que GPT-3 laisser présager d'importants changements dans les semaines et mois à venir pour le référencement SEO. Nous pensons que les contenus à faible valeur ajoutée massivement créés par les webmasters seront logiquement de moins en moins indexés dans le futur. La qualité des contenus se verra donc récompensée par rapport à la quantité. Chaque page ne sera pas indexée. Seules les pages web les plus qualitatives selon l'IA de Google seront crawlées et indexées.
Les gestionnaires de sites internet doivent donc redoubler d'efforts pour la création d'un contenu de qualité et à forte valeur ajoutée. Cela se fait dans le but d'améliorer leur référencement SEO, sans oublier toutes les autres optimisations : temps de chargement, netlinking, expérience utilisateur. Si vous avez besoin d'un accompagnement dans ce sens, vous pouvez faire appel à SEMJuice. Nous vous proposons de la rédaction de contenu standard et optimisé SEO de qualité prise en charge par des rédacteurs web humains expérimentés. N'hésitez pas à nous contacter pour discuter de votre projet.
Restez informés de l’actu SEO et de nos news