ChatPaper.aiChatPaper

Eine Geschichte von Vertrauen und Genauigkeit: Base vs. Instruct LLMs in RAG-Systemen

A Tale of Trust and Accuracy: Base vs. Instruct LLMs in RAG Systems

June 21, 2024
Autoren: Florin Cuconasu, Giovanni Trappolini, Nicola Tonellotto, Fabrizio Silvestri
cs.AI

Zusammenfassung

Die Retrieval Augmented Generation (RAG) stellt einen signifikanten Fortschritt in der künstlichen Intelligenz dar, indem sie eine Abrufphase mit einer generativen Phase kombiniert, wobei letztere in der Regel von großen Sprachmodellen (LLMs) betrieben wird. Die aktuellen gängigen Praktiken in RAG beinhalten die Verwendung von "angewiesenen" LLMs, die durch überwachtes Training feinabgestimmt werden, um ihre Fähigkeit zur Befolgung von Anweisungen zu verbessern und mit menschlichen Präferenzen unter Verwendung modernster Techniken in Einklang zu bringen. Entgegen der gängigen Meinung zeigt unsere Studie, dass Basismodelle unter unseren experimentellen Bedingungen im Durchschnitt um 20 % besser abschneiden als ihre angewiesenen Gegenstücke in RAG-Aufgaben. Diese Erkenntnis stellt die vorherrschenden Annahmen über die Überlegenheit von angewiesenen LLMs in RAG-Anwendungen in Frage. Weitere Untersuchungen enthüllen eine differenziertere Situation, die grundlegende Aspekte von RAG in Frage stellt und die Notwendigkeit für umfassendere Diskussionen zu diesem Thema nahelegt; oder, wie es Fromm ausdrücken würde, "Selten genügt ein Blick auf die Statistiken, um die Bedeutung der Zahlen zu verstehen".
English
Retrieval Augmented Generation (RAG) represents a significant advancement in artificial intelligence combining a retrieval phase with a generative phase, with the latter typically being powered by large language models (LLMs). The current common practices in RAG involve using "instructed" LLMs, which are fine-tuned with supervised training to enhance their ability to follow instructions and are aligned with human preferences using state-of-the-art techniques. Contrary to popular belief, our study demonstrates that base models outperform their instructed counterparts in RAG tasks by 20% on average under our experimental settings. This finding challenges the prevailing assumptions about the superiority of instructed LLMs in RAG applications. Further investigations reveal a more nuanced situation, questioning fundamental aspects of RAG and suggesting the need for broader discussions on the topic; or, as Fromm would have it, "Seldom is a glance at the statistics enough to understand the meaning of the figures".

Summary

AI-Generated Summary

PDF71November 29, 2024