Wat Gezien Is Kan Niet Ongezien Worden: De Verstorende Werking van Kennisconflicten op Grote Taalmodellen

Samenvatting

Grote taalmodellen vertrouwen vaak op zowel contextuele input als parametrische kennis om taken uit te voeren. Deze bronnen kunnen echter met elkaar in conflict komen, vooral wanneer opgehaalde documenten de parametrische kennis van het model tegenspreken. Wij stellen een diagnostisch raamwerk voor om het gedrag van LLM's systematisch te evalueren onder context-geheugenconflicten, waarbij de contextuele informatie afwijkt van hun parametrische overtuigingen. We construeren diagnostische gegevens die deze conflicten uitlokken en analyseren de modelprestaties over meerdere taaktypen. Onze bevindingen onthullen dat (1) kennisconflict minimale impact heeft op taken die geen gebruik van kennis vereisen, (2) de modelprestaties consistent hoger zijn wanneer contextuele en parametrische kennis op elkaar zijn afgestemd, (3) modellen niet in staat zijn om hun interne kennis volledig te onderdrukken, zelfs niet wanneer daartoe wordt geïnstrueerd, en (4) het verstrekken van redeneringen die het conflict uitleggen de afhankelijkheid van contexten vergroot. Deze inzichten roepen vragen op over de geldigheid van modelgebaseerde evaluatie en benadrukken de noodzaak om rekening te houden met kennisconflicten bij de inzet van LLM's.

English

Large language models frequently rely on both contextual input and parametric knowledge to perform tasks. However, these sources can come into conflict, especially when retrieved documents contradict the model's parametric knowledge. We propose a diagnostic framework to systematically evaluate LLM behavior under context-memory conflict, where the contextual information diverges from their parametric beliefs. We construct diagnostic data that elicit these conflicts and analyze model performance across multiple task types. Our findings reveal that (1) knowledge conflict has minimal impact on tasks that do not require knowledge utilization, (2) model performance is consistently higher when contextual and parametric knowledge are aligned, (3) models are unable to fully suppress their internal knowledge even when instructed, and (4) providing rationales that explain the conflict increases reliance on contexts. These insights raise concerns about the validity of model-based evaluation and underscore the need to account for knowledge conflict in the deployment of LLMs.

Wat Gezien Is Kan Niet Ongezien Worden: De Verstorende Werking van Kennisconflicten op Grote Taalmodellen

What Is Seen Cannot Be Unseen: The Disruptive Effect of Knowledge Conflict on Large Language Models

Samenvatting

Support