Соответствуют ли решения LLM вербальной уверенности?
Are LLM Decisions Faithful to Verbal Confidence?
January 12, 2026
Авторы: Jiawei Wang, Yanfei Zhou, Siddartha Devic, Deqing Fu
cs.AI
Аннотация
Крупные языковые модели (LLMs) способны формировать удивительно сложные оценки собственной неопределенности. Однако остается неясным, в какой степени эта декларируемая уверенность связана с процессом рассуждений, знаниями или принятием решений моделью. Чтобы проверить это, мы представляем RiskEval — фреймворк, предназначенный для оценки того, корректируют ли модели свою политику воздержания от ответа в ответ на различные штрафы за ошибку. Наша оценка нескольких передовых моделей выявляет критический разрыв: модели не являются ни осведомленными о стоимости при формулировании своей вербальной уверенности, ни стратегически отзывчивыми при принятии решения о том, стоит ли давать ответ или воздержаться в условиях высоких штрафов. Даже когда экстремальные штрафы делают частое воздержание математически оптимальной стратегией, модели почти никогда не воздерживаются, что приводит к коллапсу полезности. Это указывает на то, что калиброванные вербальные оценки уверенности могут быть недостаточны для создания надежных и интерпретируемых систем ИИ, поскольку современные модели лишены стратегической агентности, необходимой для преобразования сигналов неопределенности в оптимальные и чувствительные к риску решения.
English
Large Language Models (LLMs) can produce surprisingly sophisticated estimates of their own uncertainty. However, it remains unclear to what extent this expressed confidence is tied to the reasoning, knowledge, or decision making of the model. To test this, we introduce RiskEval: a framework designed to evaluate whether models adjust their abstention policies in response to varying error penalties. Our evaluation of several frontier models reveals a critical dissociation: models are neither cost-aware when articulating their verbal confidence, nor strategically responsive when deciding whether to engage or abstain under high-penalty conditions. Even when extreme penalties render frequent abstention the mathematically optimal strategy, models almost never abstain, resulting in utility collapse. This indicates that calibrated verbal confidence scores may not be sufficient to create trustworthy and interpretable AI systems, as current models lack the strategic agency to convert uncertainty signals into optimal and risk-sensitive decisions.