Entraînés dans les conflits : Détection et gestion des sources conflictuelles dans les LLM enrichis par la recherche
DRAGged into Conflicts: Detecting and Addressing Conflicting Sources in Search-Augmented LLMs
June 10, 2025
Auteurs: Arie Cattan, Alon Jacovi, Ori Ram, Jonathan Herzig, Roee Aharoni, Sasha Goldshtein, Eran Ofek, Idan Szpektor, Avi Caciularu
cs.AI
Résumé
La Génération Augmentée par Récupération (Retrieval Augmented Generation, RAG) est une approche couramment utilisée pour enrichir les grands modèles de langage (LLMs) avec des informations pertinentes et à jour. Cependant, les sources récupérées peuvent souvent contenir des informations contradictoires, et il reste incertain comment les modèles devraient traiter de telles divergences. Dans ce travail, nous proposons d’abord une nouvelle taxonomie des types de conflits de connaissances dans RAG, accompagnée du comportement souhaité du modèle pour chaque type. Nous introduisons ensuite CONFLICTS, un benchmark de haute qualité avec des annotations expertes des types de conflits dans un cadre réaliste de RAG. CONFLICTS est le premier benchmark permettant de suivre les progrès sur la manière dont les modèles abordent une large gamme de conflits de connaissances. Nous menons des expériences approfondies sur ce benchmark, montrant que les LLMs peinent souvent à résoudre de manière appropriée les conflits entre les sources. Bien que le fait d’inciter les LLMs à raisonner explicitement sur les conflits potentiels dans les documents récupérés améliore significativement la qualité et la pertinence de leurs réponses, il reste une marge substantielle d’amélioration pour les recherches futures.
English
Retrieval Augmented Generation (RAG) is a commonly used approach for
enhancing large language models (LLMs) with relevant and up-to-date
information. However, the retrieved sources can often contain conflicting
information and it remains unclear how models should address such
discrepancies. In this work, we first propose a novel taxonomy of knowledge
conflict types in RAG, along with the desired model behavior for each type. We
then introduce CONFLICTS, a high-quality benchmark with expert annotations of
conflict types in a realistic RAG setting. CONFLICTS is the first benchmark
that enables tracking progress on how models address a wide range of knowledge
conflicts. We conduct extensive experiments on this benchmark, showing that
LLMs often struggle to appropriately resolve conflicts between sources. While
prompting LLMs to explicitly reason about the potential conflict in the
retrieved documents significantly improves the quality and appropriateness of
their responses, substantial room for improvement in future research remains.