ChatPaper.aiChatPaper

Trascinati nei conflitti: Rilevamento e gestione di fonti contrastanti nei LLM potenziati con ricerca

DRAGged into Conflicts: Detecting and Addressing Conflicting Sources in Search-Augmented LLMs

June 10, 2025
Autori: Arie Cattan, Alon Jacovi, Ori Ram, Jonathan Herzig, Roee Aharoni, Sasha Goldshtein, Eran Ofek, Idan Szpektor, Avi Caciularu
cs.AI

Abstract

La Generazione Aumentata dal Recupero (Retrieval Augmented Generation, RAG) è un approccio comunemente utilizzato per arricchire i grandi modelli linguistici (LLM) con informazioni rilevanti e aggiornate. Tuttavia, le fonti recuperate possono spesso contenere informazioni contrastanti, e non è chiaro come i modelli dovrebbero affrontare tali discrepanze. In questo lavoro, proponiamo innanzitutto una nuova tassonomia dei tipi di conflitto di conoscenza nel RAG, insieme al comportamento desiderato del modello per ciascun tipo. Introduciamo poi CONFLICTS, un benchmark di alta qualità con annotazioni esperte dei tipi di conflitto in un contesto RAG realistico. CONFLICTS è il primo benchmark che consente di monitorare i progressi su come i modelli affrontano un'ampia gamma di conflitti di conoscenza. Condurremo esperimenti approfonditi su questo benchmark, dimostrando che gli LLM spesso faticano a risolvere in modo appropriato i conflitti tra le fonti. Sebbene il prompting degli LLM per ragionare esplicitamente sul potenziale conflitto nei documenti recuperati migliori significativamente la qualità e l'appropriatezza delle loro risposte, rimane un ampio margine di miglioramento per la ricerca futura.
English
Retrieval Augmented Generation (RAG) is a commonly used approach for enhancing large language models (LLMs) with relevant and up-to-date information. However, the retrieved sources can often contain conflicting information and it remains unclear how models should address such discrepancies. In this work, we first propose a novel taxonomy of knowledge conflict types in RAG, along with the desired model behavior for each type. We then introduce CONFLICTS, a high-quality benchmark with expert annotations of conflict types in a realistic RAG setting. CONFLICTS is the first benchmark that enables tracking progress on how models address a wide range of knowledge conflicts. We conduct extensive experiments on this benchmark, showing that LLMs often struggle to appropriately resolve conflicts between sources. While prompting LLMs to explicitly reason about the potential conflict in the retrieved documents significantly improves the quality and appropriateness of their responses, substantial room for improvement in future research remains.
PDF72June 11, 2025