DRAGged in conflicten: Detecteren en aanpakken van tegenstrijdige bronnen in zoek-versterkte grote taalmodellen
DRAGged into Conflicts: Detecting and Addressing Conflicting Sources in Search-Augmented LLMs
June 10, 2025
Auteurs: Arie Cattan, Alon Jacovi, Ori Ram, Jonathan Herzig, Roee Aharoni, Sasha Goldshtein, Eran Ofek, Idan Szpektor, Avi Caciularu
cs.AI
Samenvatting
Retrieval Augmented Generation (RAG) is een veelgebruikte aanpak om grote taalmmodellen (LLMs) te verrijken met relevante en actuele informatie. De opgehaalde bronnen kunnen echter vaak tegenstrijdige informatie bevatten, en het blijft onduidelijk hoe modellen dergelijke discrepanties moeten aanpakken. In dit werk stellen we eerst een nieuwe taxonomie voor van kennisconflicttypen in RAG, samen met het gewenste modelgedrag voor elk type. Vervolgens introduceren we CONFLICTS, een hoogwaardige benchmark met expertannotaties van conflicttypen in een realistische RAG-omgeving. CONFLICTS is de eerste benchmark die het mogelijk maakt om de voortgang te volgen in hoe modellen een breed scala aan kennisconflicten aanpakken. We voeren uitgebreide experimenten uit op deze benchmark, waaruit blijkt dat LLMs vaak moeite hebben om conflicten tussen bronnen op een gepaste manier op te lossen. Hoewel het aanmoedigen van LLMs om expliciet te redeneren over het potentiële conflict in de opgehaalde documenten de kwaliteit en geschiktheid van hun antwoorden aanzienlijk verbetert, blijft er aanzienlijke ruimte voor verbetering in toekomstig onderzoek.
English
Retrieval Augmented Generation (RAG) is a commonly used approach for
enhancing large language models (LLMs) with relevant and up-to-date
information. However, the retrieved sources can often contain conflicting
information and it remains unclear how models should address such
discrepancies. In this work, we first propose a novel taxonomy of knowledge
conflict types in RAG, along with the desired model behavior for each type. We
then introduce CONFLICTS, a high-quality benchmark with expert annotations of
conflict types in a realistic RAG setting. CONFLICTS is the first benchmark
that enables tracking progress on how models address a wide range of knowledge
conflicts. We conduct extensive experiments on this benchmark, showing that
LLMs often struggle to appropriately resolve conflicts between sources. While
prompting LLMs to explicitly reason about the potential conflict in the
retrieved documents significantly improves the quality and appropriateness of
their responses, substantial room for improvement in future research remains.