DRAGによる対立検出:検索拡張型LLMにおける矛盾する情報源の検出と対応
DRAGged into Conflicts: Detecting and Addressing Conflicting Sources in Search-Augmented LLMs
June 10, 2025
著者: Arie Cattan, Alon Jacovi, Ori Ram, Jonathan Herzig, Roee Aharoni, Sasha Goldshtein, Eran Ofek, Idan Szpektor, Avi Caciularu
cs.AI
要旨
検索拡張生成(Retrieval Augmented Generation, RAG)は、大規模言語モデル(LLMs)に関連性の高い最新の情報を組み込むために広く用いられる手法である。しかし、検索された情報源にはしばしば矛盾する情報が含まれており、モデルがそのような不一致をどのように扱うべきかは未だ明確ではない。本研究では、まずRAGにおける知識衝突のタイプを分類する新たな分類法を提案し、各タイプに対するモデルの望ましい振る舞いを示す。次に、現実的なRAG設定における衝突タイプを専門家が注釈付けた高品質なベンチマーク「CONFLICTS」を紹介する。CONFLICTSは、モデルが多様な知識衝突をどのように扱うかについての進捗を追跡可能にする初のベンチマークである。このベンチマークを用いた広範な実験を行い、LLMsが情報源間の衝突を適切に解決することにしばしば苦戦することを示す。検索された文書内の潜在的な衝突についてLLMsに明示的に推論させることで、応答の質と適切性が大幅に向上するものの、今後の研究において改善の余地が依然として大きいことが明らかとなった。
English
Retrieval Augmented Generation (RAG) is a commonly used approach for
enhancing large language models (LLMs) with relevant and up-to-date
information. However, the retrieved sources can often contain conflicting
information and it remains unclear how models should address such
discrepancies. In this work, we first propose a novel taxonomy of knowledge
conflict types in RAG, along with the desired model behavior for each type. We
then introduce CONFLICTS, a high-quality benchmark with expert annotations of
conflict types in a realistic RAG setting. CONFLICTS is the first benchmark
that enables tracking progress on how models address a wide range of knowledge
conflicts. We conduct extensive experiments on this benchmark, showing that
LLMs often struggle to appropriately resolve conflicts between sources. While
prompting LLMs to explicitly reason about the potential conflict in the
retrieved documents significantly improves the quality and appropriateness of
their responses, substantial room for improvement in future research remains.