ChatPaper.aiChatPaper

自信の錯覚?近傍一貫性によるLLMの真実性の診断

Illusions of Confidence? Diagnosing LLM Truthfulness via Neighborhood Consistency

January 9, 2026
著者: Haoming Xu, Ningyuan Zhao, Yunzhi Yao, Weihong Xu, Hongru Wang, Xinle Deng, Shumin Deng, Jeff Z. Pan, Huajun Chen, Ningyu Zhang
cs.AI

要旨

大規模言語モデル(LLM)が実世界の環境で展開される機会が増えるにつれ、単なる正しさだけでは不十分である。信頼性のある展開には、文脈的摂動下で真実な信念を維持することが求められる。既存の評価は、Self-Consistencyのような点ごとの信頼度に大きく依存しており、脆弱な信念を隠蔽する可能性がある。本論文では、完全な自己一貫性をもって回答された事実でさえ、軽微な文脈的干渉によって急速に崩壊し得ることを示す。この課題に対処するため、概念的近傍における応答の首尾一貫性を評価する、信念の頑健性に関する構造的指標であるNeighbor-Consistency Belief(NCB)を提案する。NCBの有効性を検証するために、文脈的干渉下での出力安定性を検証する新しい認知的ストレステスト手法を導入する。複数のLLMを用いた実験により、NCB値の高いデータの性能は干渉に対して比較的強固であることが示される。最後に、文脈不変の信念構造を最適化し、ロングテール知識の脆弱性を約30%低減するStructure-Aware Training(SAT)を提案する。コードはhttps://github.com/zjunlp/belief で公開予定である。
English
As Large Language Models (LLMs) are increasingly deployed in real-world settings, correctness alone is insufficient. Reliable deployment requires maintaining truthful beliefs under contextual perturbations. Existing evaluations largely rely on point-wise confidence like Self-Consistency, which can mask brittle belief. We show that even facts answered with perfect self-consistency can rapidly collapse under mild contextual interference. To address this gap, we propose Neighbor-Consistency Belief (NCB), a structural measure of belief robustness that evaluates response coherence across a conceptual neighborhood. To validate the efficiency of NCB, we introduce a new cognitive stress-testing protocol that probes outputs stability under contextual interference. Experiments across multiple LLMs show that the performance of high-NCB data is relatively more resistant to interference. Finally, we present Structure-Aware Training (SAT), which optimizes context-invariant belief structure and reduces long-tail knowledge brittleness by approximately 30%. Code will be available at https://github.com/zjunlp/belief.
PDF121January 13, 2026