Arrastrados para Conflitos: Detecção e Resolução de Fontes Conflitantes em LLMs Aumentados por Busca
DRAGged into Conflicts: Detecting and Addressing Conflicting Sources in Search-Augmented LLMs
June 10, 2025
Autores: Arie Cattan, Alon Jacovi, Ori Ram, Jonathan Herzig, Roee Aharoni, Sasha Goldshtein, Eran Ofek, Idan Szpektor, Avi Caciularu
cs.AI
Resumo
A Geração Aumentada por Recuperação (RAG) é uma abordagem comumente usada para aprimorar modelos de linguagem de grande escala (LLMs) com informações relevantes e atualizadas. No entanto, as fontes recuperadas podem frequentemente conter informações conflitantes, e ainda não está claro como os modelos devem lidar com tais discrepâncias. Neste trabalho, primeiro propomos uma nova taxonomia de tipos de conflitos de conhecimento no RAG, juntamente com o comportamento desejado do modelo para cada tipo. Em seguida, apresentamos CONFLICTS, um benchmark de alta qualidade com anotações especializadas de tipos de conflitos em um cenário realista de RAG. CONFLICTS é o primeiro benchmark que permite acompanhar o progresso sobre como os modelos abordam uma ampla gama de conflitos de conhecimento. Realizamos experimentos extensivos nesse benchmark, mostrando que os LLMs frequentemente têm dificuldade em resolver adequadamente conflitos entre fontes. Embora instruir os LLMs a raciocinar explicitamente sobre o potencial conflito nos documentos recuperados melhore significativamente a qualidade e a adequação de suas respostas, ainda há um espaço considerável para melhorias em pesquisas futuras.
English
Retrieval Augmented Generation (RAG) is a commonly used approach for
enhancing large language models (LLMs) with relevant and up-to-date
information. However, the retrieved sources can often contain conflicting
information and it remains unclear how models should address such
discrepancies. In this work, we first propose a novel taxonomy of knowledge
conflict types in RAG, along with the desired model behavior for each type. We
then introduce CONFLICTS, a high-quality benchmark with expert annotations of
conflict types in a realistic RAG setting. CONFLICTS is the first benchmark
that enables tracking progress on how models address a wide range of knowledge
conflicts. We conduct extensive experiments on this benchmark, showing that
LLMs often struggle to appropriately resolve conflicts between sources. While
prompting LLMs to explicitly reason about the potential conflict in the
retrieved documents significantly improves the quality and appropriateness of
their responses, substantial room for improvement in future research remains.