Accueil Digital/HighTech Le défi de l’utilisation de ChatGPT pour les moteurs de recherche

Le défi de l’utilisation de ChatGPT pour les moteurs de recherche

Par Admin

Après le lancement de ChatGPT en novembre, les grandes entreprises ont été captivées par l’idée d’intégrer l’IA dans leurs systèmes. Microsoft et Google ont mené cette charge en annonçant leur intention d’intégrer des modèles tels que GPT-3 et Bard dans leurs moteurs de recherche, ce qui permettra de fournir des réponses contextuelles et humanisées aux requêtes.

D’autres sociétés suivront probablement cet exemple, en mettant en œuvre des modèles de langage de grande taille (LLM) dans les moteurs de recherche. Ces modèles, dont GPT-3 fait partie, ont captivé une grande partie du monde de la technologie par leur capacité à imiter et à interpréter les modèles humains de parole et d’écriture.

Entraînés sur de grandes quantités de données provenant d’Internet et suivant des milliards de paramètres, les LLM peuvent détecter des éléments subtils de la parole humaine. Les LLM sont donc capables d’interpréter les expressions familières, les sous-entendus et les questions nuancées, et de produire des résultats qui nous paraissent tout aussi riches.

Cependant, si les LLM peuvent comprendre et produire du langage naturel, il ne s’ensuit pas qu’ils produisent naturellement de la valeur pour de nombreuses organisations à l’heure actuelle. Au contraire, la taille et l’échelle mêmes des LLM les rendent souvent très peu adaptés à tout travail dans des domaines où l’exactitude factuelle est la préoccupation principale. Cela inclut de nombreuses requêtes de recherche en ligne.

Les LLM ne sont pas performants dans les domaines qui nécessitent des connaissances spécialisées. En fait, ils ne réussissent pas du tout dans les fonctions génératrices de revenus où la fiabilité des faits est requise. Pourquoi en est-il ainsi ? Et qu’est-ce que cela signifie pour l’utilisation de l’IA dans les entreprises ?

Les LLM : un problème d’échelle

La faiblesse factuelle des LLM tient à la qualité même qui leur permet d’interpréter et d’imiter le discours des profanes : l’étendue des données sur lesquelles ils sont formés.

Pour former les LLM, les équipes d’organisations comme OpenAI ou Google récupèrent des millions d’exemples de textes sur l’internet ouvert. Ce mélange couvre à peu près tous les types de contenus disponibles sur le web public et sur presque tous les sujets imaginables. À partir de ces données, les spécialistes en langues étrangères peuvent se faire une idée de la langue utilisée par la personne moyenne.

Mais le problème se manifeste dès que vous entrez dans un domaine de niche. Avant même d’introduire le jargon spécifique à un domaine, on constate que les différentes spécialités utilisent souvent des définitions précises et distinctes des mots par rapport à l’usage courant. Cela ne concerne pas seulement les définitions : une discipline peut avoir des relations très différentes entre les concepts et les termes par rapport aux mêmes dans une autre discipline.

Par conséquent, les LLM à qui l’on pose des questions dans un domaine spécialisé finissent souvent par faire de fausses analogies avec un domaine sans rapport, par utiliser les mauvaises définitions lors de la recherche d’informations ou par mal comprendre la question qui leur est posée.

>Voir aussi : ChatGPT rendra-t-il le low-code obsolète ?

Pivoter vers des modèles plus intelligents pour la recherche

Le gros problème des LLM dans le domaine de la recherche est que beaucoup ne sont pas conçus pour répondre à des demandes de connaissances spécialisées ou de niche. Quelle est donc la place de l’IA dans le monde de la recherche ?

La réponse réside dans les modèles linguistiques intelligents. Il s’agit de modèles entraînés sur des ensembles de données de haute qualité, en plus du contenu scientifique, qui sont ciblés dès le départ pour être axés sur un contexte commercial ou un domaine d’expertise particulier. En outre, l’accent est mis sur l’exactitude factuelle tant des résultats générés que de la citation des sources utilisées pour parvenir à ces résultats.

Ces modèles linguistiques intelligents contrastent fortement avec les problèmes actuels liés à l’utilisation de LLM pour la recherche, où il n’y a aucune garantie d’exactitude factuelle et aucune citation des sources. En outre, l’internet fonctionne avec des liens, des classements et des publicités, ce qui complique encore l’analyse dont dépendent les LLM et la recherche.

Les MLL peuvent tirer de nombreux enseignements des modèles linguistiques intelligents. En donnant la priorité à l’explicabilité et à la précision, les capacités impressionnantes des MLL peuvent être utilisées pour perturber les moteurs de recherche traditionnels.

Victor Botev est directeur technique d’Iris.ai, une plateforme de recherche alimentée par l’IA.

Voir aussi :

La recherche assistée par l’IA est lancée par Neeva en Europe. Le nouveau service de recherche alimenté par l’IA du fournisseur de plates-formes sans publicité Neeva permettra aux utilisateurs européens d’exploiter des résultats de recherche étayés par des sources liées, après un projet pilote aux États-Unis.

Comment la recherche d’IA en tant que service permet de relever le défi des données non structurées ? La startup de gestion des données Nuclia aide les organisations à valoriser leurs données, grâce à son API de moteur de recherche IA à faible code.

Articles Similaires