LLM의 결정은 언어적 자신감에 충실한가?
Are LLM Decisions Faithful to Verbal Confidence?
January 12, 2026
저자: Jiawei Wang, Yanfei Zhou, Siddartha Devic, Deqing Fu
cs.AI
초록
대규모 언어 모델(LLM)은 놀라울 정도로 정교한 자체 불확실성 추정치를 생성할 수 있습니다. 그러나 이러한 표현된 신뢰도가 모델의 추론, 지식 또는 의사 결정과 어느 정도 연관되어 있는지는 여전히 불분명합니다. 이를 검증하기 위해 우리는 모델이 다양한 오류 패널티에 따라 자제 정책을 조정하는지 평가하기 위해 설계된 RiskEval 프레임워크를 도입했습니다. 여러 최첨단 모델에 대한 평가 결과 중요한 분리 현상을 확인했습니다: 모델들은 언어적 신뢰도를 표현할 때 비용 인식 능력을 보이지 않았으며, 높은 패널티 조건에서 참여할지 자제할지 결정할 때 전략적으로 대응하지도 않았습니다. 극단적인 패널티로 인해 빈번한 자제가 수학적으로 최적의 전략이 되는 상황에서도 모델들은 거의 자제하지 않아 효용성이 급격히 붕괴되었습니다. 이는 교정된 언어적 신뢰도 점수만으로는 신뢰할 수 있고 해석 가능한 AI 시스템을 구축하기에 부족할 수 있음을 시사하며, 현재 모델들은 불확실성 신호를 최적의 위험 감지 의사 결정으로 전환할 전략적 주체성을 결여하고 있습니다.
English
Large Language Models (LLMs) can produce surprisingly sophisticated estimates of their own uncertainty. However, it remains unclear to what extent this expressed confidence is tied to the reasoning, knowledge, or decision making of the model. To test this, we introduce RiskEval: a framework designed to evaluate whether models adjust their abstention policies in response to varying error penalties. Our evaluation of several frontier models reveals a critical dissociation: models are neither cost-aware when articulating their verbal confidence, nor strategically responsive when deciding whether to engage or abstain under high-penalty conditions. Even when extreme penalties render frequent abstention the mathematically optimal strategy, models almost never abstain, resulting in utility collapse. This indicates that calibrated verbal confidence scores may not be sufficient to create trustworthy and interpretable AI systems, as current models lack the strategic agency to convert uncertainty signals into optimal and risk-sensitive decisions.