Een verhaal over vertrouwen en nauwkeurigheid: Basis vs. Instruct LLM's in RAG-systemen
A Tale of Trust and Accuracy: Base vs. Instruct LLMs in RAG Systems
June 21, 2024
Auteurs: Florin Cuconasu, Giovanni Trappolini, Nicola Tonellotto, Fabrizio Silvestri
cs.AI
Samenvatting
Retrieval Augmented Generation (RAG) vertegenwoordigt een belangrijke vooruitgang in kunstmatige intelligentie door een retrievalfase te combineren met een generatieve fase, waarbij de laatste doorgaans wordt aangedreven door grote taalmodellen (LLM's). De huidige gangbare praktijken in RAG omvatten het gebruik van "geïnstrueerde" LLM's, die zijn verfijnd met gesuperviseerde training om hun vermogen om instructies op te volgen te verbeteren en die zijn afgestemd op menselijke voorkeuren met behulp van state-of-the-art technieken. In tegenstelling tot wat vaak wordt gedacht, toont ons onderzoek aan dat basismodellen hun geïnstrueerde tegenhangers in RAG-taken gemiddeld met 20% overtreffen onder onze experimentele omstandigheden. Deze bevinding daagt de heersende aannames over de superioriteit van geïnstrueerde LLM's in RAG-toepassingen uit. Verdere onderzoeken onthullen een genuanceerdere situatie, waarbij fundamentele aspecten van RAG in twijfel worden getrokken en de noodzaak wordt gesuggereerd voor bredere discussies over het onderwerp; of, zoals Fromm het zou zeggen: "Zelden is een blik op de statistieken voldoende om de betekenis van de cijfers te begrijpen".
English
Retrieval Augmented Generation (RAG) represents a significant advancement in
artificial intelligence combining a retrieval phase with a generative phase,
with the latter typically being powered by large language models (LLMs). The
current common practices in RAG involve using "instructed" LLMs, which are
fine-tuned with supervised training to enhance their ability to follow
instructions and are aligned with human preferences using state-of-the-art
techniques. Contrary to popular belief, our study demonstrates that base models
outperform their instructed counterparts in RAG tasks by 20% on average under
our experimental settings. This finding challenges the prevailing assumptions
about the superiority of instructed LLMs in RAG applications. Further
investigations reveal a more nuanced situation, questioning fundamental aspects
of RAG and suggesting the need for broader discussions on the topic; or, as
Fromm would have it, "Seldom is a glance at the statistics enough to understand
the meaning of the figures".