ChatPaper.aiChatPaper

Lo que se ve no puede dejar de verse: El efecto disruptivo del conflicto de conocimiento en los modelos de lenguaje de gran escala

What Is Seen Cannot Be Unseen: The Disruptive Effect of Knowledge Conflict on Large Language Models

June 6, 2025
Autores: Kaiser Sun, Fan Bai, Mark Dredze
cs.AI

Resumen

Los modelos de lenguaje de gran tamaño frecuentemente dependen tanto de la entrada contextual como del conocimiento paramétrico para realizar tareas. Sin embargo, estas fuentes pueden entrar en conflicto, especialmente cuando los documentos recuperados contradicen el conocimiento paramétrico del modelo. Proponemos un marco de diagnóstico para evaluar sistemáticamente el comportamiento de los LLM bajo conflictos entre contexto y memoria, donde la información contextual diverge de sus creencias paramétricas. Construimos datos de diagnóstico que provocan estos conflictos y analizamos el rendimiento del modelo en múltiples tipos de tareas. Nuestros hallazgos revelan que (1) el conflicto de conocimiento tiene un impacto mínimo en tareas que no requieren la utilización de conocimiento, (2) el rendimiento del modelo es consistentemente mayor cuando el conocimiento contextual y paramétrico están alineados, (3) los modelos no pueden suprimir completamente su conocimiento interno incluso cuando se les indica, y (4) proporcionar razonamientos que expliquen el conflicto aumenta la dependencia en los contextos. Estas observaciones generan preocupaciones sobre la validez de la evaluación basada en modelos y subrayan la necesidad de considerar los conflictos de conocimiento en el despliegue de los LLM.
English
Large language models frequently rely on both contextual input and parametric knowledge to perform tasks. However, these sources can come into conflict, especially when retrieved documents contradict the model's parametric knowledge. We propose a diagnostic framework to systematically evaluate LLM behavior under context-memory conflict, where the contextual information diverges from their parametric beliefs. We construct diagnostic data that elicit these conflicts and analyze model performance across multiple task types. Our findings reveal that (1) knowledge conflict has minimal impact on tasks that do not require knowledge utilization, (2) model performance is consistently higher when contextual and parametric knowledge are aligned, (3) models are unable to fully suppress their internal knowledge even when instructed, and (4) providing rationales that explain the conflict increases reliance on contexts. These insights raise concerns about the validity of model-based evaluation and underscore the need to account for knowledge conflict in the deployment of LLMs.
PDF52June 10, 2025