Comment Google BERT Vs. Les algorithmes de Smith fonctionnent ensemble - Présentation de Semalt




Google a récemment publié un article de recherche sur son nouvel algorithme de PNL SMITH. Cet article a éclairé de nombreux professionnels du référencement sur les changements qui justifieraient des augmentations ou des baisses du classement SERP. Néanmoins, notre préoccupation ici est de savoir comment ce nouvel algorithme SMITH se compare-t-il à BERT?

Dans l'article publié par Google, ils ont affirmé que SMITH surpasse BERT dans la compréhension des longues requêtes de recherche et des longs documents. Ce qui rend SMITH si intéressant, c'est qu'il peut comprendre des passages d'un document similaire à ce que BERT fait avec des mots et des phrases. Cette fonctionnalité améliorée de SMITH lui permet de comprendre facilement des documents plus longs.

Mais avant d'aller plus loin, nous devons vous informer que pour le moment, SMITH n'est pas en direct dans les algorithmes de Google. Mais si nos spéculations sont justes, elle sera lancée parallèlement à l'indexation des passages, ou elle la précédera. Si vous êtes vraiment intéressé à apprendre à vous classer sur SEP, l'apprentissage automatique irait inévitablement côte à côte avec cet intérêt.

Revenons donc au sujet, le BERT est-il sur le point d'être remplacé? La plupart des documents sur le Web qui sont vastes, robustes et donc plus longs ne fonctionneront-ils pas mieux avec SMITH?

Allons plus loin et voyons ce que nous avons conclu. SMITH peut faire à la fois le travail de lecture de documents robustes et fins. Pensez-y comme un Bazooka. Cela peut causer de gros dommages car il peut également ouvrir des portes.

Pour commencer, pourquoi BERT ou SMITH?

La vraie question ici est de savoir pourquoi un moteur de recherche aura-t-il besoin de Natural Learning Processing pour fournir des résultats de recherche. La réponse est simple. Les moteurs de recherche ont besoin de la PNL dans leur transition des chaînes ou mots-clés de compréhension des moteurs de recherche vers des objets ou des pages Web.

Lorsque Google n'a pas d'idée, que peut-il y avoir d'autre sur la page que les mots-clés ou si le contenu indexé a même un sens par rapport à la requête de recherche. Grâce à la PNL, Google peut comprendre le contexte des caractères saisis dans sa requête de recherche.
Grâce à la PNL, Google peut distinguer les intentions d'un utilisateur lorsqu'il dit «berge» et «compte bancaire». Il peut également comprendre des déclarations telles que «Caroline a rencontré ses amis pour un verre, un verre, une pinte, une bière, une bière…» comme non naturelles.

En tant qu'experts en SEO, nous devons dire que la compréhension des requêtes de recherche a parcouru un long chemin. Best pense qu'il était excessivement difficile de trouver les bons articles sur Internet dans le passé.

Comprendre BERT

BERT fonctionne actuellement comme le meilleur modèle de PNL que nous ayons pour de nombreuses, sinon la plupart, des applications, en particulier lorsqu'il s'agit de comprendre des structures de langage complexes. Beaucoup considèrent le premier caractère bidirectien comme le plus grand bond en avant de cet algorithme. Plutôt que d'avoir un algorithme qui lit de gauche à droite, BERT peut également comprendre les mots par rapport à leur contexte. De cette façon, il ne donnerait pas de résultats pour les mots individuels placés dans la requête, mais indexerait les pages Web en fonction de la signification collective des mots dans la requête de recherche.

Voici un exemple pour faciliter votre compréhension:

UN CAMION A LA LUMIÈRE.

Si vous deviez interpréter cette affirmation de gauche à droite, en atteignant le mot «léger», vous classeriez le camion comme quelque chose avec de la lumière. C'est parce que le camion est venu avant la lumière dans la déclaration.

Mais si nous voulons classer les choses sur les camions, nous pouvons laisser de côté «léger» parce que nous ne le rencontrons pas avant «camion».

Il est difficile de considérer l'énoncé dans un seul sens.

De plus, BERT a également un autre avantage secret d'être si remarquable, et il permet le traitement efficace de la langue avec un coût en ressources inférieur par rapport aux modèles précédents. C'est en effet un facteur important à prendre en compte lorsque l'on veut l'appliquer à l'ensemble du web.

L'application des jetons est une autre évolution qui a accompagné BERT. Il y a 30 000 jetons dans BERT, et chacun d'eux représente un mot commun avec quelques jetons supplémentaires pour les caractères et les fragments au cas où un mot existe en dehors des 30 000.

Grâce à sa capacité à traiter les jetons et les transformateurs, le BERT a compris le contenu, ce qui lui a également donné la capacité de comprendre les phrases de manière adéquate.

Donc, si nous disons, "la jeune femme est allée à la rive. Elle s'est ensuite assise sur la rive et a regardé le fleuve couler".

BERT attribuera des valeurs différentes à ces phrases car elles se réfèrent à deux choses différentes.

Comprendre SMITH

Vient ensuite SMITH, un algorithme avec de meilleures ressources et de meilleurs nombres à utiliser pour traiter des documents plus volumineux. BERT utilise environ 256 jetons par document, et lorsqu'il dépasse ce seuil, le coût de calcul devient trop élevé pour un fonctionnement optimal. En revanche, SMITH peut gérer jusqu'à 2 248 jetons par document. C'est environ 8 fois le nombre de jetons utilisés par BERT.

Pour comprendre pourquoi les coûts de calcul augmentent dans un seul modèle PNL, nous devons d'abord considérer ce qu'il faut pour comprendre une phrase et un paragraphe. Lorsqu'il s'agit d'une phrase, il n'y a qu'un seul concept général à comprendre. Il y a moins de mots liés les uns aux autres, donc moins de connexions entre les mots et les idées qu'ils gardent en mémoire.

En transformant des phrases en paragraphes, le lien entre ces mots est grandement multiplié. Traiter 8X le texte nécessitera beaucoup plus de vitesse et de capacité d'optimisation de la mémoire en utilisant le même modèle. C'est là que SMITH fait toute la différence en effectuant essentiellement un traitement par lots et en effectuant de nombreux traitements hors ligne. Fait intéressant, SMITH dépend toujours de BERT pour fonctionner correctement.

Voici une description de la façon dont SMITH prend un document à sa base:
  1. Il divise d'abord le document en groupes de tailles plus faciles à gérer.
  2. Il traite ensuite chaque bloc de phrases individuellement.
  3. Un transformateur apprend ensuite une représentation contextuelle de chaque bloc, après quoi il les transforme en une représentation de document.

Comment fonctionne SMITH?

Pour former le modèle SMITH, nous apprenons de BERT de deux manières:

Pour former BERT, un mot est retiré d'une phrase et des options alternatives seront fournies

Le BERT, qui est le mieux formé, est celui qui réussira le mieux à choisir la bonne option parmi les alternatives proposées. Par exemple, si BERT reçoit la phrase:

Le brun heureux ------ a sauté par-dessus la palissade.
  • Option un - tomates.
  • Option deux - chien.
Mieux le BERT est formé, meilleures sont ses chances de choisir la bonne option, qui est la deuxième option.

Cette méthode de formation est également appliquée dans SMITH.

SMITH est formé pour les documents volumineux

Plus SMITH est mieux formé, meilleures sont ses chances de reconnaître les phrases omises. C'est la même idée avec BERT mais une application différente. Cette partie est particulièrement intéressante car elle peint un monde avec des contenus générés par Google rassemblés dans des pages de résultats de moteur de recherche murées. Bien sûr, les utilisateurs peuvent partir, mais ils ne le feront pas, car Google peut rassembler du contenu court et long à partir de toutes les meilleures sources sur sa page de résultats.

Si vous doutez que cela se produise, sachez que cela a déjà commencé à se produire, et même s'ils ne l'ont pas encore maîtrisé, c'est un début.

SMITH est-il meilleur que BERT?

Avec tout ce que vous avez lu, il est tout à fait naturel de supposer que SMITH est meilleur, et dans de nombreuses tâches, il est vraiment meilleur. Mais considérez comment vous utilisez Internet pendant un moment; quelles questions saisissez-vous régulièrement dans les requêtes de recherche?
  • "Quelle est la météo pour aujourd'hui?"
  • "Itinéraire vers un restaurant".
Répondre à de telles requêtes de recherche nécessite généralement un contenu court, souvent avec des données limitées et simples. SMITH est plus impliqué dans la compréhension de documents plus longs et plus complexes et de requêtes de recherche longues et complexes.

Il s'agira notamment de rassembler plusieurs documents et sujets pour créer leurs réponses. Il détermine comment le contenu peut être décomposé, permettant à Google de savoir ce qu'il faut afficher. Cela aidera Google à comprendre comment les pages de contenu sont liées les unes aux autres et fournit une échelle à laquelle les liens peuvent être évalués parmi d'autres avantages.

Cela étant dit, nous concluons en disant que BERT et SMITH sont tous deux importants et qu'ils servent tous deux leur objectif unique.

Conclusion

Bien que SMITH soit le bazooka, nous en avons besoin pour brosser un tableau clair de la façon dont les choses sont collectivement. En termes de ressources, cela coûte plus cher car il fait un plus gros travail, mais cela coûte beaucoup moins cher que BERT pour faire le même travail.

BERT aide SMITH à mieux comprendre les requêtes courtes et les petits morceaux de contenu. Ceci, cependant, jusqu'à ce que Google développe un autre algorithme PNL qui remplacera les deux, puis nous passerons et rattraperons un autre progrès en matière de référencement.

Intéressé par le référencement? Consultez nos autres articles sur le Blog Semalt.