ARRRASTRADOS a conflictos: Detección y abordaje de fuentes conflictivas en LLMs aumentados con búsqueda
DRAGged into Conflicts: Detecting and Addressing Conflicting Sources in Search-Augmented LLMs
June 10, 2025
Autores: Arie Cattan, Alon Jacovi, Ori Ram, Jonathan Herzig, Roee Aharoni, Sasha Goldshtein, Eran Ofek, Idan Szpektor, Avi Caciularu
cs.AI
Resumen
La Generación Aumentada por Recuperación (RAG, por sus siglas en inglés) es un enfoque comúnmente utilizado para mejorar los modelos de lenguaje de gran escala (LLMs) con información relevante y actualizada. Sin embargo, las fuentes recuperadas a menudo pueden contener información conflictiva, y no está claro cómo los modelos deberían abordar tales discrepancias. En este trabajo, primero proponemos una taxonomía novedosa de tipos de conflictos de conocimiento en RAG, junto con el comportamiento deseado del modelo para cada tipo. Luego, presentamos CONFLICTS, un punto de referencia de alta calidad con anotaciones expertas de tipos de conflictos en un entorno realista de RAG. CONFLICTS es el primer punto de referencia que permite rastrear el progreso sobre cómo los modelos abordan una amplia gama de conflictos de conocimiento. Realizamos experimentos extensos en este punto de referencia, mostrando que los LLMs a menudo tienen dificultades para resolver adecuadamente los conflictos entre las fuentes. Si bien el hecho de solicitar a los LLMs que razonen explícitamente sobre el potencial conflicto en los documentos recuperados mejora significativamente la calidad y la pertinencia de sus respuestas, aún queda un margen sustancial para la mejora en futuras investigaciones.
English
Retrieval Augmented Generation (RAG) is a commonly used approach for
enhancing large language models (LLMs) with relevant and up-to-date
information. However, the retrieved sources can often contain conflicting
information and it remains unclear how models should address such
discrepancies. In this work, we first propose a novel taxonomy of knowledge
conflict types in RAG, along with the desired model behavior for each type. We
then introduce CONFLICTS, a high-quality benchmark with expert annotations of
conflict types in a realistic RAG setting. CONFLICTS is the first benchmark
that enables tracking progress on how models address a wide range of knowledge
conflicts. We conduct extensive experiments on this benchmark, showing that
LLMs often struggle to appropriately resolve conflicts between sources. While
prompting LLMs to explicitly reason about the potential conflict in the
retrieved documents significantly improves the quality and appropriateness of
their responses, substantial room for improvement in future research remains.