Lo que se ve no puede dejar de verse: El efecto disruptivo del conflicto de conocimiento en los modelos de lenguaje de gran escala
What Is Seen Cannot Be Unseen: The Disruptive Effect of Knowledge Conflict on Large Language Models
June 6, 2025
Autores: Kaiser Sun, Fan Bai, Mark Dredze
cs.AI
Resumen
Los modelos de lenguaje de gran tamaño frecuentemente dependen tanto de la entrada contextual como del conocimiento paramétrico para realizar tareas. Sin embargo, estas fuentes pueden entrar en conflicto, especialmente cuando los documentos recuperados contradicen el conocimiento paramétrico del modelo. Proponemos un marco de diagnóstico para evaluar sistemáticamente el comportamiento de los LLM bajo conflictos entre contexto y memoria, donde la información contextual diverge de sus creencias paramétricas. Construimos datos de diagnóstico que provocan estos conflictos y analizamos el rendimiento del modelo en múltiples tipos de tareas. Nuestros hallazgos revelan que (1) el conflicto de conocimiento tiene un impacto mínimo en tareas que no requieren la utilización de conocimiento, (2) el rendimiento del modelo es consistentemente mayor cuando el conocimiento contextual y paramétrico están alineados, (3) los modelos no pueden suprimir completamente su conocimiento interno incluso cuando se les indica, y (4) proporcionar razonamientos que expliquen el conflicto aumenta la dependencia en los contextos. Estas observaciones generan preocupaciones sobre la validez de la evaluación basada en modelos y subrayan la necesidad de considerar los conflictos de conocimiento en el despliegue de los LLM.
English
Large language models frequently rely on both contextual input and parametric
knowledge to perform tasks. However, these sources can come into conflict,
especially when retrieved documents contradict the model's parametric
knowledge. We propose a diagnostic framework to systematically evaluate LLM
behavior under context-memory conflict, where the contextual information
diverges from their parametric beliefs. We construct diagnostic data that
elicit these conflicts and analyze model performance across multiple task
types. Our findings reveal that (1) knowledge conflict has minimal impact on
tasks that do not require knowledge utilization, (2) model performance is
consistently higher when contextual and parametric knowledge are aligned, (3)
models are unable to fully suppress their internal knowledge even when
instructed, and (4) providing rationales that explain the conflict increases
reliance on contexts. These insights raise concerns about the validity of
model-based evaluation and underscore the need to account for knowledge
conflict in the deployment of LLMs.