Ciò che è visto non può essere non visto: l'effetto dirompente del conflitto di conoscenza sui modelli linguistici di grandi dimensioni
What Is Seen Cannot Be Unseen: The Disruptive Effect of Knowledge Conflict on Large Language Models
June 6, 2025
Autori: Kaiser Sun, Fan Bai, Mark Dredze
cs.AI
Abstract
I modelli linguistici di grandi dimensioni si basano frequentemente sia sull'input contestuale che sulla conoscenza parametrica per eseguire compiti. Tuttavia, queste fonti possono entrare in conflitto, specialmente quando i documenti recuperati contraddicono la conoscenza parametrica del modello. Proponiamo un framework diagnostico per valutare sistematicamente il comportamento dei modelli linguistici in situazioni di conflitto contesto-memoria, in cui le informazioni contestuali divergono dalle loro convinzioni parametriche. Costruiamo dati diagnostici che suscitano questi conflitti e analizziamo le prestazioni del modello attraverso diversi tipi di compiti. Le nostre scoperte rivelano che (1) il conflitto di conoscenza ha un impatto minimo sui compiti che non richiedono l'utilizzo della conoscenza, (2) le prestazioni del modello sono costantemente migliori quando la conoscenza contestuale e parametrica sono allineate, (3) i modelli non sono in grado di sopprimere completamente la loro conoscenza interna anche quando istruiti a farlo, e (4) fornire razionali che spiegano il conflitto aumenta la dipendenza dai contesti. Questi risultati sollevano preoccupazioni sulla validità della valutazione basata sui modelli e sottolineano la necessità di tenere conto del conflitto di conoscenza nel dispiegamento dei modelli linguistici di grandi dimensioni.
English
Large language models frequently rely on both contextual input and parametric
knowledge to perform tasks. However, these sources can come into conflict,
especially when retrieved documents contradict the model's parametric
knowledge. We propose a diagnostic framework to systematically evaluate LLM
behavior under context-memory conflict, where the contextual information
diverges from their parametric beliefs. We construct diagnostic data that
elicit these conflicts and analyze model performance across multiple task
types. Our findings reveal that (1) knowledge conflict has minimal impact on
tasks that do not require knowledge utilization, (2) model performance is
consistently higher when contextual and parametric knowledge are aligned, (3)
models are unable to fully suppress their internal knowledge even when
instructed, and (4) providing rationales that explain the conflict increases
reliance on contexts. These insights raise concerns about the validity of
model-based evaluation and underscore the need to account for knowledge
conflict in the deployment of LLMs.