Wat Gezien Is Kan Niet Ongezien Worden: De Verstorende Werking van Kennisconflicten op Grote Taalmodellen
What Is Seen Cannot Be Unseen: The Disruptive Effect of Knowledge Conflict on Large Language Models
June 6, 2025
Auteurs: Kaiser Sun, Fan Bai, Mark Dredze
cs.AI
Samenvatting
Grote taalmodellen vertrouwen vaak op zowel contextuele input als parametrische kennis om taken uit te voeren. Deze bronnen kunnen echter met elkaar in conflict komen, vooral wanneer opgehaalde documenten de parametrische kennis van het model tegenspreken. Wij stellen een diagnostisch raamwerk voor om het gedrag van LLM's systematisch te evalueren onder context-geheugenconflicten, waarbij de contextuele informatie afwijkt van hun parametrische overtuigingen. We construeren diagnostische gegevens die deze conflicten uitlokken en analyseren de modelprestaties over meerdere taaktypen. Onze bevindingen onthullen dat (1) kennisconflict minimale impact heeft op taken die geen gebruik van kennis vereisen, (2) de modelprestaties consistent hoger zijn wanneer contextuele en parametrische kennis op elkaar zijn afgestemd, (3) modellen niet in staat zijn om hun interne kennis volledig te onderdrukken, zelfs niet wanneer daartoe wordt geïnstrueerd, en (4) het verstrekken van redeneringen die het conflict uitleggen de afhankelijkheid van contexten vergroot. Deze inzichten roepen vragen op over de geldigheid van modelgebaseerde evaluatie en benadrukken de noodzaak om rekening te houden met kennisconflicten bij de inzet van LLM's.
English
Large language models frequently rely on both contextual input and parametric
knowledge to perform tasks. However, these sources can come into conflict,
especially when retrieved documents contradict the model's parametric
knowledge. We propose a diagnostic framework to systematically evaluate LLM
behavior under context-memory conflict, where the contextual information
diverges from their parametric beliefs. We construct diagnostic data that
elicit these conflicts and analyze model performance across multiple task
types. Our findings reveal that (1) knowledge conflict has minimal impact on
tasks that do not require knowledge utilization, (2) model performance is
consistently higher when contextual and parametric knowledge are aligned, (3)
models are unable to fully suppress their internal knowledge even when
instructed, and (4) providing rationales that explain the conflict increases
reliance on contexts. These insights raise concerns about the validity of
model-based evaluation and underscore the need to account for knowledge
conflict in the deployment of LLMs.