То, что увидели, нельзя не увидеть: разрушительное влияние конфликта знаний на большие языковые модели
What Is Seen Cannot Be Unseen: The Disruptive Effect of Knowledge Conflict on Large Language Models
June 6, 2025
Авторы: Kaiser Sun, Fan Bai, Mark Dredze
cs.AI
Аннотация
Крупные языковые модели часто полагаются как на контекстный ввод, так и на параметрические знания для выполнения задач. Однако эти источники могут вступать в противоречие, особенно когда извлеченные документы противоречат параметрическим знаниям модели. Мы предлагаем диагностическую структуру для систематической оценки поведения языковых моделей в условиях конфликта между контекстом и памятью, когда контекстная информация расходится с их параметрическими убеждениями. Мы создаем диагностические данные, которые вызывают такие конфликты, и анализируем производительность моделей в различных типах задач. Наши результаты показывают, что (1) конфликт знаний оказывает минимальное влияние на задачи, не требующие использования знаний, (2) производительность модели стабильно выше, когда контекстные и параметрические знания согласованы, (3) модели не способны полностью подавить свои внутренние знания даже при наличии соответствующих инструкций, и (4) предоставление объяснений, раскрывающих конфликт, увеличивает зависимость от контекста. Эти выводы вызывают обеспокоенность в отношении достоверности оценки на основе моделей и подчеркивают необходимость учета конфликта знаний при внедрении крупных языковых моделей.
English
Large language models frequently rely on both contextual input and parametric
knowledge to perform tasks. However, these sources can come into conflict,
especially when retrieved documents contradict the model's parametric
knowledge. We propose a diagnostic framework to systematically evaluate LLM
behavior under context-memory conflict, where the contextual information
diverges from their parametric beliefs. We construct diagnostic data that
elicit these conflicts and analyze model performance across multiple task
types. Our findings reveal that (1) knowledge conflict has minimal impact on
tasks that do not require knowledge utilization, (2) model performance is
consistently higher when contextual and parametric knowledge are aligned, (3)
models are unable to fully suppress their internal knowledge even when
instructed, and (4) providing rationales that explain the conflict increases
reliance on contexts. These insights raise concerns about the validity of
model-based evaluation and underscore the need to account for knowledge
conflict in the deployment of LLMs.