ChatPaper.aiChatPaper

DRAGged in Konflikte: Erkennung und Behandlung widersprüchlicher Quellen in suchverstärkten LLMs

DRAGged into Conflicts: Detecting and Addressing Conflicting Sources in Search-Augmented LLMs

June 10, 2025
Autoren: Arie Cattan, Alon Jacovi, Ori Ram, Jonathan Herzig, Roee Aharoni, Sasha Goldshtein, Eran Ofek, Idan Szpektor, Avi Caciularu
cs.AI

Zusammenfassung

Retrieval Augmented Generation (RAG) ist ein häufig verwendeter Ansatz, um große Sprachmodelle (LLMs) mit relevanten und aktuellen Informationen zu erweitern. Allerdings können die abgerufenen Quellen oft widersprüchliche Informationen enthalten, und es bleibt unklar, wie Modelle mit solchen Diskrepanzen umgehen sollten. In dieser Arbeit schlagen wir zunächst eine neuartige Taxonomie von Wissenskonflikttypen in RAG vor, zusammen mit dem gewünschten Modellverhalten für jeden Typ. Anschließend stellen wir CONFLICTS vor, einen hochwertigen Benchmark mit Expertenannotationen von Konflikttypen in einem realistischen RAG-Szenario. CONFLICTS ist der erste Benchmark, der es ermöglicht, Fortschritte bei der Bewältigung einer breiten Palette von Wissenskonflikten durch Modelle zu verfolgen. Wir führen umfangreiche Experimente mit diesem Benchmark durch und zeigen, dass LLMs oft Schwierigkeiten haben, Konflikte zwischen Quellen angemessen zu lösen. Während die Aufforderung an LLMs, explizit über potenzielle Konflikte in den abgerufenen Dokumenten nachzudenken, die Qualität und Angemessenheit ihrer Antworten deutlich verbessert, bleibt dennoch erheblicher Raum für Verbesserungen in zukünftigen Forschungen.
English
Retrieval Augmented Generation (RAG) is a commonly used approach for enhancing large language models (LLMs) with relevant and up-to-date information. However, the retrieved sources can often contain conflicting information and it remains unclear how models should address such discrepancies. In this work, we first propose a novel taxonomy of knowledge conflict types in RAG, along with the desired model behavior for each type. We then introduce CONFLICTS, a high-quality benchmark with expert annotations of conflict types in a realistic RAG setting. CONFLICTS is the first benchmark that enables tracking progress on how models address a wide range of knowledge conflicts. We conduct extensive experiments on this benchmark, showing that LLMs often struggle to appropriately resolve conflicts between sources. While prompting LLMs to explicitly reason about the potential conflict in the retrieved documents significantly improves the quality and appropriateness of their responses, substantial room for improvement in future research remains.
PDF72June 11, 2025