大規模言語モデルの判断は、言語化された確信度に忠実か?
Are LLM Decisions Faithful to Verbal Confidence?
January 12, 2026
著者: Jiawei Wang, Yanfei Zhou, Siddartha Devic, Deqing Fu
cs.AI
要旨
大規模言語モデル(LLMs)は、自身の不確実性について驚くほど精緻な推定を生成できる。しかし、この表明された信頼度がモデルの推論・知識・意思決定のいずれに結び付いているかは未解明である。これを検証するため、我々はRiskEvalを導入した。これはモデルが異なるエラー罰則に応じて不回答方針を調整するか評価する枠組みである。複数の先進モデルを評価した結果、重大な乖離が明らかになった:モデルは言語的な信頼度表明においてコスト認識性を示さず、高罰則条件下での対応・不回答の決定においても戦略的応答性を欠く。極端な罰則によって頻繁な不回答が数学的に最適戦略となる場合でも、モデルはほとんど不回答を選択せず、効用の崩壊を招く。これは、較正された言語的信頼度スコアだけでは信頼性と解釈性を備えたAIシステムを構築するには不十分であることを示唆する。現行のモデルは不確実性シグナルを最適でリスク感応型の決定に変換する戦略的主体性を欠いているためである。
English
Large Language Models (LLMs) can produce surprisingly sophisticated estimates of their own uncertainty. However, it remains unclear to what extent this expressed confidence is tied to the reasoning, knowledge, or decision making of the model. To test this, we introduce RiskEval: a framework designed to evaluate whether models adjust their abstention policies in response to varying error penalties. Our evaluation of several frontier models reveals a critical dissociation: models are neither cost-aware when articulating their verbal confidence, nor strategically responsive when deciding whether to engage or abstain under high-penalty conditions. Even when extreme penalties render frequent abstention the mathematically optimal strategy, models almost never abstain, resulting in utility collapse. This indicates that calibrated verbal confidence scores may not be sufficient to create trustworthy and interpretable AI systems, as current models lack the strategic agency to convert uncertainty signals into optimal and risk-sensitive decisions.