Ce qui est vu ne peut être oublié : l'effet perturbateur du conflit de connaissances sur les modèles de langage de grande envergure
What Is Seen Cannot Be Unseen: The Disruptive Effect of Knowledge Conflict on Large Language Models
June 6, 2025
Auteurs: Kaiser Sun, Fan Bai, Mark Dredze
cs.AI
Résumé
Les grands modèles de langage s'appuient fréquemment à la fois sur des entrées contextuelles et sur des connaissances paramétriques pour accomplir des tâches. Cependant, ces sources peuvent entrer en conflit, en particulier lorsque les documents récupérés contredisent les connaissances paramétriques du modèle. Nous proposons un cadre de diagnostic pour évaluer systématiquement le comportement des LLM en cas de conflit entre contexte et mémoire, où l'information contextuelle diverge de leurs croyances paramétriques. Nous construisons des données de diagnostic qui suscitent ces conflits et analysons la performance des modèles sur plusieurs types de tâches. Nos résultats révèlent que (1) le conflit de connaissances a un impact minimal sur les tâches ne nécessitant pas l'utilisation de connaissances, (2) la performance des modèles est systématiquement plus élevée lorsque les connaissances contextuelles et paramétriques sont alignées, (3) les modèles sont incapables de supprimer complètement leurs connaissances internes même lorsqu'ils y sont explicitement invités, et (4) fournir des justifications expliquant le conflit augmente la dépendance aux contextes. Ces observations soulèvent des inquiétudes quant à la validité de l'évaluation basée sur les modèles et mettent en lumière la nécessité de prendre en compte les conflits de connaissances dans le déploiement des LLM.
English
Large language models frequently rely on both contextual input and parametric
knowledge to perform tasks. However, these sources can come into conflict,
especially when retrieved documents contradict the model's parametric
knowledge. We propose a diagnostic framework to systematically evaluate LLM
behavior under context-memory conflict, where the contextual information
diverges from their parametric beliefs. We construct diagnostic data that
elicit these conflicts and analyze model performance across multiple task
types. Our findings reveal that (1) knowledge conflict has minimal impact on
tasks that do not require knowledge utilization, (2) model performance is
consistently higher when contextual and parametric knowledge are aligned, (3)
models are unable to fully suppress their internal knowledge even when
instructed, and (4) providing rationales that explain the conflict increases
reliance on contexts. These insights raise concerns about the validity of
model-based evaluation and underscore the need to account for knowledge
conflict in the deployment of LLMs.