Una storia di affidabilità e precisione: Modelli linguistici di base vs. istruiti nei sistemi RAG
A Tale of Trust and Accuracy: Base vs. Instruct LLMs in RAG Systems
June 21, 2024
Autori: Florin Cuconasu, Giovanni Trappolini, Nicola Tonellotto, Fabrizio Silvestri
cs.AI
Abstract
La Generazione Aumentata dal Recupero (RAG) rappresenta un significativo progresso nell'intelligenza artificiale, combinando una fase di recupero con una fase generativa, quest'ultima tipicamente alimentata da modelli linguistici di grandi dimensioni (LLM). Le pratiche comuni attuali nel RAG prevedono l'uso di LLM "istruiti", che vengono perfezionati attraverso un addestramento supervisionato per migliorare la loro capacità di seguire le istruzioni e sono allineati con le preferenze umane utilizzando tecniche all'avanguardia. Contrariamente alla credenza popolare, il nostro studio dimostra che i modelli di base superano le loro controparti istruite nei compiti RAG in media del 20% nelle nostre condizioni sperimentali. Questa scoperta mette in discussione le ipotesi prevalenti sulla superiorità degli LLM istruiti nelle applicazioni RAG. Ulteriori indagini rivelano una situazione più sfumata, mettendo in discussione aspetti fondamentali del RAG e suggerendo la necessità di discussioni più ampie sull'argomento; o, come direbbe Fromm, "Raramente uno sguardo alle statistiche è sufficiente per comprendere il significato delle cifre".
English
Retrieval Augmented Generation (RAG) represents a significant advancement in
artificial intelligence combining a retrieval phase with a generative phase,
with the latter typically being powered by large language models (LLMs). The
current common practices in RAG involve using "instructed" LLMs, which are
fine-tuned with supervised training to enhance their ability to follow
instructions and are aligned with human preferences using state-of-the-art
techniques. Contrary to popular belief, our study demonstrates that base models
outperform their instructed counterparts in RAG tasks by 20% on average under
our experimental settings. This finding challenges the prevailing assumptions
about the superiority of instructed LLMs in RAG applications. Further
investigations reveal a more nuanced situation, questioning fundamental aspects
of RAG and suggesting the need for broader discussions on the topic; or, as
Fromm would have it, "Seldom is a glance at the statistics enough to understand
the meaning of the figures".