Une histoire de confiance et de précision : Modèles de langage de base vs. modèles instructifs dans les systèmes RAG
A Tale of Trust and Accuracy: Base vs. Instruct LLMs in RAG Systems
June 21, 2024
papers.authors: Florin Cuconasu, Giovanni Trappolini, Nicola Tonellotto, Fabrizio Silvestri
cs.AI
papers.abstract
La Génération Augmentée par Récupération (RAG) représente une avancée significative en intelligence artificielle, combinant une phase de récupération avec une phase générative, cette dernière étant généralement alimentée par des modèles de langage de grande taille (LLMs). Les pratiques courantes actuelles en RAG impliquent l'utilisation de LLMs "instruits", qui sont affinés par un apprentissage supervisé pour améliorer leur capacité à suivre des instructions et sont alignés sur les préférences humaines grâce à des techniques de pointe. Contrairement à la croyance populaire, notre étude démontre que les modèles de base surpassent leurs homologues instruits dans les tâches RAG de 20 % en moyenne dans nos conditions expérimentales. Cette découverte remet en question les hypothèses dominantes sur la supériorité des LLMs instruits dans les applications RAG. Des investigations plus poussées révèlent une situation plus nuancée, interrogeant des aspects fondamentaux de RAG et suggérant la nécessité de discussions plus larges sur le sujet ; ou, comme Fromm l'aurait dit, "Il est rare qu'un simple coup d'œil aux statistiques suffise à comprendre la signification des chiffres".
English
Retrieval Augmented Generation (RAG) represents a significant advancement in
artificial intelligence combining a retrieval phase with a generative phase,
with the latter typically being powered by large language models (LLMs). The
current common practices in RAG involve using "instructed" LLMs, which are
fine-tuned with supervised training to enhance their ability to follow
instructions and are aligned with human preferences using state-of-the-art
techniques. Contrary to popular belief, our study demonstrates that base models
outperform their instructed counterparts in RAG tasks by 20% on average under
our experimental settings. This finding challenges the prevailing assumptions
about the superiority of instructed LLMs in RAG applications. Further
investigations reveal a more nuanced situation, questioning fundamental aspects
of RAG and suggesting the need for broader discussions on the topic; or, as
Fromm would have it, "Seldom is a glance at the statistics enough to understand
the meaning of the figures".