Иллюзии уверенности? Диагностика правдивости больших языковых моделей через согласованность в окрестности
Illusions of Confidence? Diagnosing LLM Truthfulness via Neighborhood Consistency
January 9, 2026
Авторы: Haoming Xu, Ningyuan Zhao, Yunzhi Yao, Weihong Xu, Hongru Wang, Xinle Deng, Shumin Deng, Jeff Z. Pan, Huajun Chen, Ningyu Zhang
cs.AI
Аннотация
По мере того как большие языковые модели (LLM) все шире применяются в реальных условиях, одной лишь корректности ответов становится недостаточно. Надежное развертывание требует сохранения достоверных убеждений при контекстуальных возмущениях. Существующие методы оценки в основном опираются на точечные показатели уверенности, такие как самосогласованность (Self-Consistency), которые могут маскировать хрупкость убеждений. Мы показываем, что даже факты, получаемые с идеальной самосогласованностью, могут быстро разрушаться под слабым контекстуальным воздействием. Для устранения этого пробела мы предлагаем структурную меру устойчивости убеждений — согласованность с соседями (Neighbor-Consistency Belief, NCB), которая оценивает когерентность ответов в концептуальной окрестности. Для проверки эффективности NCB мы вводим новый протокол когнитивного стресс-тестирования, исследующий стабильность выходных данных при контекстуальных помехах. Эксперименты с различными LLM демонстрируют, что данные с высоким NCB проявляют относительно более высокую устойчивость к вмешательству. Наконец, мы представляем структуро-ориентированное обучение (Structure-Aware Training, SAT), которое оптимизирует инвариантную к контексту структуру убеждений и снижает хрупкость знаний в «длинном хвосте» примерно на 30%. Код будет доступен по адресу https://github.com/zjunlp/belief.
English
As Large Language Models (LLMs) are increasingly deployed in real-world settings, correctness alone is insufficient. Reliable deployment requires maintaining truthful beliefs under contextual perturbations. Existing evaluations largely rely on point-wise confidence like Self-Consistency, which can mask brittle belief. We show that even facts answered with perfect self-consistency can rapidly collapse under mild contextual interference. To address this gap, we propose Neighbor-Consistency Belief (NCB), a structural measure of belief robustness that evaluates response coherence across a conceptual neighborhood. To validate the efficiency of NCB, we introduce a new cognitive stress-testing protocol that probes outputs stability under contextual interference. Experiments across multiple LLMs show that the performance of high-NCB data is relatively more resistant to interference. Finally, we present Structure-Aware Training (SAT), which optimizes context-invariant belief structure and reduces long-tail knowledge brittleness by approximately 30%. Code will be available at https://github.com/zjunlp/belief.