SEO Investigation : à la recherche du not provided dans Google Search Console 1


Sommaire

Madeline
Sur twitter

Si vous suivez l’actualité du SEO, vous n’aurez pas manqué de voir que Google a délibérément choisi de ne plus prendre en compte le not provided dans Search Console : « Chart totals no longer include anonymous* (rare) queries when you apply a query filter » (on notera que le « rare » n’est pas si rare que ça pour de nombreux sites). Bon, beaucoup de personnes ne savaient qu’il y avait du not provided dans Search Console, mais la disparition de cette donnée difficilement accessible a mis plusieurs personnes en émoi.

Pour remarquer qu’il y avait du not provided, il fallait passer par l’API. On remarquait alors qu’il y avait des lignes sans mot clé associé. Ces mots clés étaient supprimés pour ne pas identifier les internautes.

On utilisera là encore Google Data Studio pour réaliser cette enquête.

Lisser les données : supprimer le not provided a posteriori

Dans le précédent article sur ce not provided, je proposais comment identifier le not provided. Du coup, si on sait identifier le not provided, on peut facilement le filtrer et ainsi toujours comparer les données incomplètes. Ce qui est bien mais pas top.

Au départ, j’ai donc mes données complètes :

Identifier le not provided

case
when REGEXP_MATCH(Query,'') then "not provided"
else "provided"
End

Je fais donc mon graph pour voir quelle est la part du not provided, et on voit bien que les « anonymous (rare) queries » étaient ici majoritaires.

On voit bien ici qu’il n’y a pas de perte d’information…enfin à partir du 19 aout 2018, on perd les informations qui n’étaient pas fournies. On perd un volume parfois important, Google aurait « juste » retiré la ligne vide.

Filtrer le not provided

Pour ne pas voir cette chute, on peut lisser les données. Il suffit donc de créer un filtre : exclure not provided, et je peux travailler sur le peu de données qu’il me reste. Appliquer la nouvelle méthode de calcul de google aux anciennes données.

Disclaimer important : Google Search Console fait aussi de l’échantillonnage

Et oui, ici, dans ma démo, tout marche nickel car comme vous l’aurez remarqué, on traite un petit échantillon de données. J’ai essayé de reproduire la même méthode sur des sites à forte volumétrie et là, on se rend compte que les totaux ne sont plus du tout les mêmes.

Ici, par exemple, si vous êtes attentifs…en cumulé, on perd près de la moitié des clics. Etonnant non ? Par contre, les graphs ont à peu près la même forme…

C’est peut être aussi une limite de Data Studio…pour le moment, je ne saurai l’expliquer.

Identifier le not provided avec les sources de données combinées

Si vous avez un peu étudié la problématique, vous avez noté que le not provided est supprimé dès qu’on filtre les données. Si on n’applique aucun filtre sur les mots clés, le total des clics est inchangé. Dès qu’on filtre un peu les données (pour identifier marque/hors marque par exemple), le total est impacté.

Une solution pour pallier ce problème est donc de comparer 2 sources de données différentes :

  • 1ère source de données : les données brutes, aucun filtre
  • 2e source de données : la même source search console, mais en appliquant le filtre exclusion du not provided.

Ensuite, il suffit de faire un champ calculé pour soustraire les clicks provided des clicks… et il restera le not provided.

Si vous n’avez pas d’échantillonnage, cela donnera ce résultat :

Ou bien si vous préférez des courbes :

Voilà, c’est fini.

N’oubliez pas, si vous avez beaucoup de données, vous n’aurez toujours pas l’ensemble des données car il y aura sûrement un fort échantillonnage… Par conséquent, on se retrouve probablement avec un ensemble de données complet et un autre filtré, donc potentiellement échantillonné…

Du coup, la différence est peut-être totalement biaisée. Cependant, cela me paraît assez cohérent. Mais comme on ne peut pas vraiment comparer, c’est plus difficile de savoir si ce sont les bons chiffres. À vous de tester.

Du coup, je n’ai peut être pas totalement retrouvé le not provided mais j’ai constaté l’échantillonnage dans Search Console. #serendipité


Laissez un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Commentaire sur “SEO Investigation : à la recherche du not provided dans Google Search Console