신뢰와 정확성의 이야기: RAG 시스템에서의 Base LLM 대 Instruct LLM
A Tale of Trust and Accuracy: Base vs. Instruct LLMs in RAG Systems
June 21, 2024
저자: Florin Cuconasu, Giovanni Trappolini, Nicola Tonellotto, Fabrizio Silvestri
cs.AI
초록
검색 증강 생성(Retrieval Augmented Generation, RAG)은 검색 단계와 생성 단계를 결합한 인공지능의 중요한 발전을 나타내며, 생성 단계는 일반적으로 대규모 언어 모델(Large Language Models, LLMs)에 의해 구동됩니다. 현재 RAG에서 일반적으로 사용되는 방법은 "지시된(instructed)" LLMs를 활용하는 것으로, 이는 지시를 따르는 능력을 향상시키기 위해 지도 학습으로 미세 조정되고, 최신 기술을 사용하여 인간의 선호도와 조정됩니다. 일반적인 믿음과는 달리, 우리의 연구는 기본 모델(base models)이 RAG 작업에서 지시된 모델보다 평균 20% 더 우수한 성능을 보인다는 것을 실험 설정 하에서 입증했습니다. 이 발견은 RAG 애플리케이션에서 지시된 LLMs의 우월성에 대한 기존의 가정에 도전합니다. 추가 조사는 RAG의 근본적인 측면에 대한 더 미묘한 상황을 밝히며, 이 주제에 대한 더 광범위한 논의의 필요성을 제기합니다. 또는 프롬(Fromm)의 말을 빌리자면, "통계를 단순히 살펴보는 것만으로는 수치의 의미를 이해하기에 충분하지 않다"는 것입니다.
English
Retrieval Augmented Generation (RAG) represents a significant advancement in
artificial intelligence combining a retrieval phase with a generative phase,
with the latter typically being powered by large language models (LLMs). The
current common practices in RAG involve using "instructed" LLMs, which are
fine-tuned with supervised training to enhance their ability to follow
instructions and are aligned with human preferences using state-of-the-art
techniques. Contrary to popular belief, our study demonstrates that base models
outperform their instructed counterparts in RAG tasks by 20% on average under
our experimental settings. This finding challenges the prevailing assumptions
about the superiority of instructed LLMs in RAG applications. Further
investigations reveal a more nuanced situation, questioning fundamental aspects
of RAG and suggesting the need for broader discussions on the topic; or, as
Fromm would have it, "Seldom is a glance at the statistics enough to understand
the meaning of the figures".Summary
AI-Generated Summary