То, что увидели, нельзя не увидеть: разрушительное влияние конфликта знаний на большие языковые модели

Аннотация

Крупные языковые модели часто полагаются как на контекстный ввод, так и на параметрические знания для выполнения задач. Однако эти источники могут вступать в противоречие, особенно когда извлеченные документы противоречат параметрическим знаниям модели. Мы предлагаем диагностическую структуру для систематической оценки поведения языковых моделей в условиях конфликта между контекстом и памятью, когда контекстная информация расходится с их параметрическими убеждениями. Мы создаем диагностические данные, которые вызывают такие конфликты, и анализируем производительность моделей в различных типах задач. Наши результаты показывают, что (1) конфликт знаний оказывает минимальное влияние на задачи, не требующие использования знаний, (2) производительность модели стабильно выше, когда контекстные и параметрические знания согласованы, (3) модели не способны полностью подавить свои внутренние знания даже при наличии соответствующих инструкций, и (4) предоставление объяснений, раскрывающих конфликт, увеличивает зависимость от контекста. Эти выводы вызывают обеспокоенность в отношении достоверности оценки на основе моделей и подчеркивают необходимость учета конфликта знаний при внедрении крупных языковых моделей.

English

Large language models frequently rely on both contextual input and parametric knowledge to perform tasks. However, these sources can come into conflict, especially when retrieved documents contradict the model's parametric knowledge. We propose a diagnostic framework to systematically evaluate LLM behavior under context-memory conflict, where the contextual information diverges from their parametric beliefs. We construct diagnostic data that elicit these conflicts and analyze model performance across multiple task types. Our findings reveal that (1) knowledge conflict has minimal impact on tasks that do not require knowledge utilization, (2) model performance is consistently higher when contextual and parametric knowledge are aligned, (3) models are unable to fully suppress their internal knowledge even when instructed, and (4) providing rationales that explain the conflict increases reliance on contexts. These insights raise concerns about the validity of model-based evaluation and underscore the need to account for knowledge conflict in the deployment of LLMs.

То, что увидели, нельзя не увидеть: разрушительное влияние конфликта знаний на большие языковые модели

What Is Seen Cannot Be Unseen: The Disruptive Effect of Knowledge Conflict on Large Language Models

Аннотация

Support