방해 효과: RAG에서 관련 없는 문단의 이해
The Distracting Effect: Understanding Irrelevant Passages in RAG
May 11, 2025
저자: Chen Amiraz, Florin Cuconasu, Simone Filice, Zohar Karnin
cs.AI
초록
검색 증강 생성(Retrieval Augmented Generation, RAG)의 잘 알려진 문제점 중 하나는 질의와 관련 없는 검색된 문단이 답변 생성용 대형 언어 모델(LLM)을 방해하여 잘못된 응답을 제공하게 만드는 경우가 있다는 것입니다. 본 논문에서는 이 핵심 문제를 조명하고, 질의(및 LLM)에 대한 문단의 방해 효과를 공식화합니다. 우리는 문단의 방해 효과를 정량적으로 측정할 수 있는 방법을 제시하고, 이를 다양한 LLM에 걸쳐 견고하게 입증합니다.
본 연구는 RAG 시스템을 개선하기 위해 강력한 방해 문단을 식별하고 활용하는 새로운 방법을 소개합니다. 이러한 신중하게 선별된 방해 문단으로 LLM을 미세 조정함으로써, 기존의 RAG 데이터셋으로 미세 조정된 모델 대비 최대 7.5%의 답변 정확도 향상을 달성했습니다. 우리의 기여는 두 가지입니다: 첫째, 관련 없는 문단을 단순히 완전히 무관한 것과 방해적인 것으로 이분법적으로 분류하는 것을 넘어섰으며, 둘째, 강력한 방해 문단을 찾기 위한 여러 방법을 개발하고 분석했습니다. 우리가 아는 한, 다른 연구에서는 강력한 방해 문단을 식별하고 활용하기 위한 이와 같은 포괄적인 프레임워크를 제공한 바 없습니다.
English
A well-known issue with Retrieval Augmented Generation (RAG) is that
retrieved passages that are irrelevant to the query sometimes distract the
answer-generating LLM, causing it to provide an incorrect response. In this
paper, we shed light on this core issue and formulate the distracting effect of
a passage w.r.t. a query (and an LLM). We provide a quantifiable measure of the
distracting effect of a passage and demonstrate its robustness across LLMs.
Our research introduces novel methods for identifying and using hard
distracting passages to improve RAG systems. By fine-tuning LLMs with these
carefully selected distracting passages, we achieve up to a 7.5% increase in
answering accuracy compared to counterparts fine-tuned on conventional RAG
datasets. Our contribution is two-fold: first, we move beyond the simple binary
classification of irrelevant passages as either completely unrelated vs.
distracting, and second, we develop and analyze multiple methods for finding
hard distracting passages. To our knowledge, no other research has provided
such a comprehensive framework for identifying and utilizing hard distracting
passages.Summary
AI-Generated Summary