Illusions de confiance ? Diagnostic de la véracité des LLM via la cohérence du voisinage
Illusions of Confidence? Diagnosing LLM Truthfulness via Neighborhood Consistency
January 9, 2026
papers.authors: Haoming Xu, Ningyuan Zhao, Yunzhi Yao, Weihong Xu, Hongru Wang, Xinle Deng, Shumin Deng, Jeff Z. Pan, Huajun Chen, Ningyu Zhang
cs.AI
papers.abstract
Alors que les modèles de langage de grande taille (LLM) sont de plus en plus déployés dans des contextes réels, la seule exactitude des réponses s'avère insuffisante. Un déploiement fiable nécessite le maintien de croyances véridiques face à des perturbations contextuelles. Les évaluations existantes reposent largement sur des mesures de confiance ponctuelles comme l'auto-cohérence, qui peuvent masquer une croyance fragile. Nous démontrons que même les faits obtenus avec une auto-cohérence parfaite peuvent s'effondrer rapidement sous une légère interférence contextuelle. Pour combler cette lacune, nous proposons la Croyance à Cohérence de Voisinage (NCB), une mesure structurelle de la robustesse des croyances qui évalue la cohérence des réponses au sein d'un voisinage conceptuel. Pour valider l'efficacité de NCB, nous introduisons un nouveau protocole de test de résistance cognitive qui sonde la stabilité des sorties sous interférence contextuelle. Les expériences menées sur plusieurs LLM montrent que les données à NCB élevé présentent une résistance relativement plus forte aux interférences. Enfin, nous présentons l'Apprentissage Sensible à la Structure (SAT), qui optimise la structure de croyance invariante au contexte et réduit la fragilité des connaissances de la traîne longue d'environ 30%. Le code sera disponible à l'adresse https://github.com/zjunlp/belief.
English
As Large Language Models (LLMs) are increasingly deployed in real-world settings, correctness alone is insufficient. Reliable deployment requires maintaining truthful beliefs under contextual perturbations. Existing evaluations largely rely on point-wise confidence like Self-Consistency, which can mask brittle belief. We show that even facts answered with perfect self-consistency can rapidly collapse under mild contextual interference. To address this gap, we propose Neighbor-Consistency Belief (NCB), a structural measure of belief robustness that evaluates response coherence across a conceptual neighborhood. To validate the efficiency of NCB, we introduce a new cognitive stress-testing protocol that probes outputs stability under contextual interference. Experiments across multiple LLMs show that the performance of high-NCB data is relatively more resistant to interference. Finally, we present Structure-Aware Training (SAT), which optimizes context-invariant belief structure and reduces long-tail knowledge brittleness by approximately 30%. Code will be available at https://github.com/zjunlp/belief.