ChatPaper.aiChatPaper

과신의 환상? 이웃 일관성을 통한 LLM 진실성 진단

Illusions of Confidence? Diagnosing LLM Truthfulness via Neighborhood Consistency

January 9, 2026
저자: Haoming Xu, Ningyuan Zhao, Yunzhi Yao, Weihong Xu, Hongru Wang, Xinle Deng, Shumin Deng, Jeff Z. Pan, Huajun Chen, Ningyu Zhang
cs.AI

초록

대규모 언어 모델(LLM)이 실제 환경에 점점 더 많이 배포됨에 따라 정확성만으로는 충분하지 않습니다. 신뢰할 수 있는 배포를 위해서는 맥락적 변화 속에서도 진실된 신념을 유지해야 합니다. 기존 평가는 주로 Self-Consistency와 같은 점별 신뢰도에 의존하는데, 이는 취약한 신념을 가릴 수 있습니다. 우리는 완벽한 자기 일관성으로 답변된 사실조차도 약한 맥락적 간섭 아래에서 급격히 붕괴될 수 있음을 보여줍니다. 이러한 격차를 해결하기 위해 개념적 이웃 간 응답 일관성을 평가하는 신념 강건성의 구조적 측정치인 Neighbor-Consistency Belief(NCB)를 제안합니다. NCB의 효율성을 검증하기 위해 맥락적 간섭 하에서 출력 안정성을 탐색하는 새로운 인지 스트레스 테스트 프로토콜을 도입했습니다. 여러 LLM에 대한 실험 결과, 높은 NCB 값을 보인 데이터의 성능은 간섭에 상대적으로 더 강인한 것으로 나타났습니다. 마지막으로, 맥락에 불변하는 신념 구조를 최적화하고 장기적 지식 취약성을 약 30% 감소시키는 Structure-Aware Training(SAT)을 소개합니다. 코드는 https://github.com/zjunlp/belief에서 공개될 예정입니다.
English
As Large Language Models (LLMs) are increasingly deployed in real-world settings, correctness alone is insufficient. Reliable deployment requires maintaining truthful beliefs under contextual perturbations. Existing evaluations largely rely on point-wise confidence like Self-Consistency, which can mask brittle belief. We show that even facts answered with perfect self-consistency can rapidly collapse under mild contextual interference. To address this gap, we propose Neighbor-Consistency Belief (NCB), a structural measure of belief robustness that evaluates response coherence across a conceptual neighborhood. To validate the efficiency of NCB, we introduce a new cognitive stress-testing protocol that probes outputs stability under contextual interference. Experiments across multiple LLMs show that the performance of high-NCB data is relatively more resistant to interference. Finally, we present Structure-Aware Training (SAT), which optimizes context-invariant belief structure and reduces long-tail knowledge brittleness by approximately 30%. Code will be available at https://github.com/zjunlp/belief.
PDF121January 13, 2026