ChatPaper.aiChatPaper

Was gesehen wurde, kann nicht ungesehen werden: Die disruptive Wirkung von Wissenskonflikten auf große Sprachmodelle

What Is Seen Cannot Be Unseen: The Disruptive Effect of Knowledge Conflict on Large Language Models

June 6, 2025
Autoren: Kaiser Sun, Fan Bai, Mark Dredze
cs.AI

Zusammenfassung

Große Sprachmodelle stützen sich häufig sowohl auf kontextuelle Eingaben als auch auf parametrisches Wissen, um Aufgaben zu bewältigen. Diese Quellen können jedoch in Konflikt geraten, insbesondere wenn abgerufene Dokumente dem parametrischen Wissen des Modells widersprechen. Wir schlagen ein diagnostisches Rahmenwerk vor, um das Verhalten von Sprachmodellen systematisch unter Kontext-Gedächtnis-Konflikten zu bewerten, bei denen die kontextuellen Informationen von ihren parametrischen Überzeugungen abweichen. Wir konstruieren diagnostische Daten, die diese Konflikte hervorrufen, und analysieren die Modellleistung über mehrere Aufgabentypen hinweg. Unsere Ergebnisse zeigen, dass (1) Wissenskonflikte nur minimalen Einfluss auf Aufgaben haben, die keine Wissensnutzung erfordern, (2) die Modellleistung durchweg höher ist, wenn kontextuelles und parametrisches Wissen übereinstimmen, (3) Modelle ihr internes Wissen auch bei entsprechender Anweisung nicht vollständig unterdrücken können und (4) die Bereitstellung von Begründungen, die den Konflikt erklären, die Abhängigkeit von Kontexten erhöht. Diese Erkenntnisse werfen Bedenken hinsichtlich der Validität modellbasierter Bewertungen auf und unterstreichen die Notwendigkeit, Wissenskonflikte bei der Anwendung von Sprachmodellen zu berücksichtigen.
English
Large language models frequently rely on both contextual input and parametric knowledge to perform tasks. However, these sources can come into conflict, especially when retrieved documents contradict the model's parametric knowledge. We propose a diagnostic framework to systematically evaluate LLM behavior under context-memory conflict, where the contextual information diverges from their parametric beliefs. We construct diagnostic data that elicit these conflicts and analyze model performance across multiple task types. Our findings reveal that (1) knowledge conflict has minimal impact on tasks that do not require knowledge utilization, (2) model performance is consistently higher when contextual and parametric knowledge are aligned, (3) models are unable to fully suppress their internal knowledge even when instructed, and (4) providing rationales that explain the conflict increases reliance on contexts. These insights raise concerns about the validity of model-based evaluation and underscore the need to account for knowledge conflict in the deployment of LLMs.
PDF52June 10, 2025