상충하는 증거를 활용한 검색-증강 생성
Retrieval-Augmented Generation with Conflicting Evidence
April 17, 2025
저자: Han Wang, Archiki Prasad, Elias Stengel-Eskin, Mohit Bansal
cs.AI
초록
대형 언어 모델(LLM) 에이전트는 응답의 사실성을 개선하기 위해 검색 증강 생성(RAG)을 점점 더 많이 활용하고 있습니다. 그러나 실제로 이러한 시스템은 모호한 사용자 질의와 여러 출처에서의 잠재적으로 상충되는 정보를 처리해야 하며, 동시에 노이즈가 많거나 관련 없는 문서에서의 부정확한 정보를 억제해야 하는 경우가 많습니다. 기존 연구는 일반적으로 이러한 문제를 개별적으로 연구하고 해결해 왔으며, 모호성 처리 또는 노이즈와 오정보에 대한 견고성과 같은 한 가지 측면만을 고려했습니다. 우리는 대신 여러 요소를 동시에 고려하여 (i) RAMDocs(Retrieval with Ambiguity and Misinformation in Documents)라는 새로운 데이터셋을 제안합니다. 이 데이터셋은 사용자 질의에 대한 모호성, 오정보, 노이즈를 포함한 복잡하고 현실적인 상충 증거 시나리오를 시뮬레이션합니다. 또한 (ii) MADAM-RAG이라는 다중 에이전트 접근 방식을 제안합니다. 이 접근 방식에서는 LLM 에이전트들이 여러 라운드에 걸쳐 답변의 장점에 대해 토론하며, 집계자가 모호성이 해소된 엔티티에 해당하는 응답을 통합하고 오정보와 노이즈를 제거함으로써 다양한 상충 출처를 함께 처리합니다. 우리는 MADAM-RAG의 효과를 폐쇄형 및 오픈소스 모델을 사용하여 AmbigDocs(모호한 질의에 대해 모든 유효한 답변을 제시해야 하는 데이터셋)와 FaithEval(오정보를 억제해야 하는 데이터셋)에서 입증했습니다. AmbigDocs에서는 강력한 RAG 베이스라인 대비 최대 11.40%의 개선을 보였고, FaithEval에서는 Llama3.3-70B-Instruct를 사용하여 최대 15.80%(절대값)의 개선을 달성했습니다. 또한, RAMDocs는 기존 RAG 베이스라인에 대한 도전 과제로 나타났습니다(Llama3.3-70B-Instruct는 정확도 점수 32.60을 기록). MADAM-RAG은 이러한 상충 요소를 해결하기 시작했지만, 우리의 분석은 특히 지지 증거와 오정보의 불균형 수준을 높일 때 상당한 격차가 남아 있음을 보여줍니다.
English
Large language model (LLM) agents are increasingly employing
retrieval-augmented generation (RAG) to improve the factuality of their
responses. However, in practice, these systems often need to handle ambiguous
user queries and potentially conflicting information from multiple sources
while also suppressing inaccurate information from noisy or irrelevant
documents. Prior work has generally studied and addressed these challenges in
isolation, considering only one aspect at a time, such as handling ambiguity or
robustness to noise and misinformation. We instead consider multiple factors
simultaneously, proposing (i) RAMDocs (Retrieval with Ambiguity and
Misinformation in Documents), a new dataset that simulates complex and
realistic scenarios for conflicting evidence for a user query, including
ambiguity, misinformation, and noise; and (ii) MADAM-RAG, a multi-agent
approach in which LLM agents debate over the merits of an answer over multiple
rounds, allowing an aggregator to collate responses corresponding to
disambiguated entities while discarding misinformation and noise, thereby
handling diverse sources of conflict jointly. We demonstrate the effectiveness
of MADAM-RAG using both closed and open-source models on AmbigDocs -- which
requires presenting all valid answers for ambiguous queries -- improving over
strong RAG baselines by up to 11.40% and on FaithEval -- which requires
suppressing misinformation -- where we improve by up to 15.80% (absolute) with
Llama3.3-70B-Instruct. Furthermore, we find that RAMDocs poses a challenge for
existing RAG baselines (Llama3.3-70B-Instruct only obtains 32.60 exact match
score). While MADAM-RAG begins to address these conflicting factors, our
analysis indicates that a substantial gap remains especially when increasing
the level of imbalance in supporting evidence and misinformation.Summary
AI-Generated Summary