Illusionen des Selbstvertrauens? Diagnose der Wahrhaftigkeit von LLM durch Nachbarschaftskonsistenz
Illusions of Confidence? Diagnosing LLM Truthfulness via Neighborhood Consistency
January 9, 2026
papers.authors: Haoming Xu, Ningyuan Zhao, Yunzhi Yao, Weihong Xu, Hongru Wang, Xinle Deng, Shumin Deng, Jeff Z. Pan, Huajun Chen, Ningyu Zhang
cs.AI
papers.abstract
Da Large Language Models (LLMs) zunehmend in realen Anwendungsszenarien eingesetzt werden, ist Korrektheit allein nicht ausreichend. Eine zuverlässige Implementierung erfordert die Aufrechterhaltung wahrheitsgemäßer Überzeugungen unter kontextuellen Störungen. Bisherige Evaluierungsmethoden stützen sich weitgehend auf punktuelle Konfidenzmaße wie Self-Consistency, die brüchige Überzeugungen verschleiern können. Wir zeigen, dass sich sogar Fakten mit perfekter Self-Consistency unter leichten kontextuellen Einflüssen rapid verschlechtern können. Um diese Lücke zu schließen, schlagen wir Neighbor-Consistency Belief (NCB) vor, ein strukturelles Maß für die Robustheit von Überzeugungen, das die Antwortkohärenz in einer konzeptuellen Nachbarschaft bewertet. Zur Validierung der Effizienz von NCB führen wir ein neues kognitives Stress-Test-Protokoll ein, das die Stabilität von Outputs unter kontextuellen Störungen untersucht. Experimente mit verschiedenen LLMs zeigen, dass die Performance von Daten mit hohem NCB-Wert relativ resistenter gegen Störungen ist. Abschließend präsentieren wir Structure-Aware Training (SAT), das kontextinvariante Überzeugungsstrukturen optimiert und die Brüchigkeit von Long-Tail-Wissen um circa 30% reduziert. Code wird unter https://github.com/zjunlp/belief verfügbar sein.
English
As Large Language Models (LLMs) are increasingly deployed in real-world settings, correctness alone is insufficient. Reliable deployment requires maintaining truthful beliefs under contextual perturbations. Existing evaluations largely rely on point-wise confidence like Self-Consistency, which can mask brittle belief. We show that even facts answered with perfect self-consistency can rapidly collapse under mild contextual interference. To address this gap, we propose Neighbor-Consistency Belief (NCB), a structural measure of belief robustness that evaluates response coherence across a conceptual neighborhood. To validate the efficiency of NCB, we introduce a new cognitive stress-testing protocol that probes outputs stability under contextual interference. Experiments across multiple LLMs show that the performance of high-NCB data is relatively more resistant to interference. Finally, we present Structure-Aware Training (SAT), which optimizes context-invariant belief structure and reduces long-tail knowledge brittleness by approximately 30%. Code will be available at https://github.com/zjunlp/belief.