信頼性と正確性の物語:RAGシステムにおけるBase LLMとInstruct LLMの比較
A Tale of Trust and Accuracy: Base vs. Instruct LLMs in RAG Systems
June 21, 2024
著者: Florin Cuconasu, Giovanni Trappolini, Nicola Tonellotto, Fabrizio Silvestri
cs.AI
要旨
検索拡張生成(RAG)は、検索フェーズと生成フェーズを組み合わせた人工知能の重要な進歩を表しており、生成フェーズは通常大規模言語モデル(LLM)によって駆動されます。現在のRAGにおける一般的な実践では、「指示調整済み」のLLMを使用することが主流です。これらのモデルは、指示に従う能力を強化するために教師あり学習で微調整され、最先端の技術を用いて人間の好みに合わせて調整されています。しかし、私たちの研究は、一般的な認識に反して、ベースモデルがRAGタスクにおいて指示調整済みモデルを平均20%上回ることを実験設定下で実証しました。この発見は、RAGアプリケーションにおける指示調整済みLLMの優位性に関する従来の仮定に疑問を投げかけます。さらなる調査により、RAGの基本的な側面に疑問を呈するより微妙な状況が明らかになり、このテーマに関するより広範な議論の必要性が示唆されています。あるいは、フロムの言葉を借りれば、「統計を一目見ただけでは、数字の意味を理解するには十分ではない」と言えるでしょう。
English
Retrieval Augmented Generation (RAG) represents a significant advancement in
artificial intelligence combining a retrieval phase with a generative phase,
with the latter typically being powered by large language models (LLMs). The
current common practices in RAG involve using "instructed" LLMs, which are
fine-tuned with supervised training to enhance their ability to follow
instructions and are aligned with human preferences using state-of-the-art
techniques. Contrary to popular belief, our study demonstrates that base models
outperform their instructed counterparts in RAG tasks by 20% on average under
our experimental settings. This finding challenges the prevailing assumptions
about the superiority of instructed LLMs in RAG applications. Further
investigations reveal a more nuanced situation, questioning fundamental aspects
of RAG and suggesting the need for broader discussions on the topic; or, as
Fromm would have it, "Seldom is a glance at the statistics enough to understand
the meaning of the figures".Summary
AI-Generated Summary