Illusies van Vertrouwen? Het Diagnosticeren van Waarheidsgetrouwheid bij LLM's via Nabuurschapsconsistentie
Illusions of Confidence? Diagnosing LLM Truthfulness via Neighborhood Consistency
January 9, 2026
Auteurs: Haoming Xu, Ningyuan Zhao, Yunzhi Yao, Weihong Xu, Hongru Wang, Xinle Deng, Shumin Deng, Jeff Z. Pan, Huajun Chen, Ningyu Zhang
cs.AI
Samenvatting
Naarmate grote taalmodelen (LLM's) steeds vaker in praktijksituaties worden ingezet, is correctheid alleen onvoldoende. Betrouwbare inzet vereist het handhaven van waarachtige overtuigingen onder contextuele verstoringen. Bestaande evaluaties vertrouwen grotendeels op puntgewijze betrouwbaarheidsmetingen zoals Self-Consistency, wat broze overtuigingen kan maskeren. Wij tonen aan dat zelfs feiten die met perfecte self-consistency worden beantwoord, snel kunnen instorten onder milde contextuele interferentie. Om deze kloof te dichten, stellen wij Neighbor-Consistency Belief (NCB) voor, een structurele maatstaf voor de robuustheid van overtuigingen die de antwoordcoherentie in een conceptuele nabijheid evalueert. Om de efficiëntie van NCB te valideren, introduceren wij een nieuw cognitief stresstestprotocol dat de stabiliteit van outputs onder contextuele interferentie onderzoekt. Experimenten met diverse LLM's tonen aan dat de prestaties van data met een hoge NCB relatief weerbaarder zijn tegen interferentie. Ten slotte presenteren wij Structure-Aware Training (SAT), dat de context-onafhankelijke overtuigingsstructuur optimaliseert en de broosheid van kennis in de lange staart met ongeveer 30% reduceert. Code zal beschikbaar zijn op https://github.com/zjunlp/belief.
English
As Large Language Models (LLMs) are increasingly deployed in real-world settings, correctness alone is insufficient. Reliable deployment requires maintaining truthful beliefs under contextual perturbations. Existing evaluations largely rely on point-wise confidence like Self-Consistency, which can mask brittle belief. We show that even facts answered with perfect self-consistency can rapidly collapse under mild contextual interference. To address this gap, we propose Neighbor-Consistency Belief (NCB), a structural measure of belief robustness that evaluates response coherence across a conceptual neighborhood. To validate the efficiency of NCB, we introduce a new cognitive stress-testing protocol that probes outputs stability under contextual interference. Experiments across multiple LLMs show that the performance of high-NCB data is relatively more resistant to interference. Finally, we present Structure-Aware Training (SAT), which optimizes context-invariant belief structure and reduces long-tail knowledge brittleness by approximately 30%. Code will be available at https://github.com/zjunlp/belief.