Was gesehen wurde, kann nicht ungesehen werden: Die disruptive Wirkung von Wissenskonflikten auf große Sprachmodelle
What Is Seen Cannot Be Unseen: The Disruptive Effect of Knowledge Conflict on Large Language Models
June 6, 2025
Autoren: Kaiser Sun, Fan Bai, Mark Dredze
cs.AI
Zusammenfassung
Große Sprachmodelle stützen sich häufig sowohl auf kontextuelle Eingaben als auch auf parametrisches Wissen, um Aufgaben zu bewältigen. Diese Quellen können jedoch in Konflikt geraten, insbesondere wenn abgerufene Dokumente dem parametrischen Wissen des Modells widersprechen. Wir schlagen ein diagnostisches Rahmenwerk vor, um das Verhalten von Sprachmodellen systematisch unter Kontext-Gedächtnis-Konflikten zu bewerten, bei denen die kontextuellen Informationen von ihren parametrischen Überzeugungen abweichen. Wir konstruieren diagnostische Daten, die diese Konflikte hervorrufen, und analysieren die Modellleistung über mehrere Aufgabentypen hinweg. Unsere Ergebnisse zeigen, dass (1) Wissenskonflikte nur minimalen Einfluss auf Aufgaben haben, die keine Wissensnutzung erfordern, (2) die Modellleistung durchweg höher ist, wenn kontextuelles und parametrisches Wissen übereinstimmen, (3) Modelle ihr internes Wissen auch bei entsprechender Anweisung nicht vollständig unterdrücken können und (4) die Bereitstellung von Begründungen, die den Konflikt erklären, die Abhängigkeit von Kontexten erhöht. Diese Erkenntnisse werfen Bedenken hinsichtlich der Validität modellbasierter Bewertungen auf und unterstreichen die Notwendigkeit, Wissenskonflikte bei der Anwendung von Sprachmodellen zu berücksichtigen.
English
Large language models frequently rely on both contextual input and parametric
knowledge to perform tasks. However, these sources can come into conflict,
especially when retrieved documents contradict the model's parametric
knowledge. We propose a diagnostic framework to systematically evaluate LLM
behavior under context-memory conflict, where the contextual information
diverges from their parametric beliefs. We construct diagnostic data that
elicit these conflicts and analyze model performance across multiple task
types. Our findings reveal that (1) knowledge conflict has minimal impact on
tasks that do not require knowledge utilization, (2) model performance is
consistently higher when contextual and parametric knowledge are aligned, (3)
models are unable to fully suppress their internal knowledge even when
instructed, and (4) providing rationales that explain the conflict increases
reliance on contexts. These insights raise concerns about the validity of
model-based evaluation and underscore the need to account for knowledge
conflict in the deployment of LLMs.