分散効果:RAGにおける無関係なパッセージの理解
The Distracting Effect: Understanding Irrelevant Passages in RAG
May 11, 2025
著者: Chen Amiraz, Florin Cuconasu, Simone Filice, Zohar Karnin
cs.AI
要旨
検索拡張生成(RAG)におけるよく知られた課題として、クエリに関連しない検索された文章が、回答生成用の大規模言語モデル(LLM)を混乱させ、誤った回答を引き起こすことがあります。本論文では、この核心的な問題に光を当て、クエリ(およびLLM)に対する文章の混乱効果を定式化します。我々は、文章の混乱効果を定量化する尺度を提供し、その尺度が複数のLLMにわたって頑健であることを示します。
我々の研究は、RAGシステムを改善するために、難しい混乱を引き起こす文章を特定し活用する新たな方法を導入します。これらの慎重に選ばれた混乱文章を用いてLLMをファインチューニングすることで、従来のRAGデータセットでファインチューニングされたモデルと比較して、最大7.5%の回答精度向上を達成しました。我々の貢献は二つあります。第一に、無関係な文章を単に完全に関連しないものと混乱を引き起こすものに二分する単純な分類を超えたこと、第二に、難しい混乱文章を見つけるための複数の方法を開発し分析したことです。我々の知る限り、他の研究では、難しい混乱文章を特定し活用するためのこれほど包括的なフレームワークを提供したものはありません。
English
A well-known issue with Retrieval Augmented Generation (RAG) is that
retrieved passages that are irrelevant to the query sometimes distract the
answer-generating LLM, causing it to provide an incorrect response. In this
paper, we shed light on this core issue and formulate the distracting effect of
a passage w.r.t. a query (and an LLM). We provide a quantifiable measure of the
distracting effect of a passage and demonstrate its robustness across LLMs.
Our research introduces novel methods for identifying and using hard
distracting passages to improve RAG systems. By fine-tuning LLMs with these
carefully selected distracting passages, we achieve up to a 7.5% increase in
answering accuracy compared to counterparts fine-tuned on conventional RAG
datasets. Our contribution is two-fold: first, we move beyond the simple binary
classification of irrelevant passages as either completely unrelated vs.
distracting, and second, we develop and analyze multiple methods for finding
hard distracting passages. To our knowledge, no other research has provided
such a comprehensive framework for identifying and utilizing hard distracting
passages.Summary
AI-Generated Summary