Les décisions des LLM sont-elles fidèles à leur confiance verbale ?
Are LLM Decisions Faithful to Verbal Confidence?
January 12, 2026
papers.authors: Jiawei Wang, Yanfei Zhou, Siddartha Devic, Deqing Fu
cs.AI
papers.abstract
Les grands modèles de langage (LLM) peuvent produire des estimations étonnamment sophistiquées de leur propre incertitude. Cependant, on ignore encore dans quelle mesure cette confiance exprimée est liée au raisonnement, aux connaissances ou à la prise de décision du modèle. Pour tester cela, nous présentons RiskEval : un cadre conçu pour évaluer si les modèles ajustent leurs politiques d'abstention en réponse à des pénalités d'erreur variables. Notre évaluation de plusieurs modèles de pointe révèle une dissociation critique : les modèles ne sont ni sensibles aux coûts lorsqu'ils articulent leur confiance verbale, ni stratégiquement réactifs lorsqu'ils décident de s'engager ou de s'abstenir dans des conditions de pénalité élevée. Même lorsque des pénalités extrêmes rendent l'abstention fréquente mathématiquement optimale, les modèles s'abstiennent presque jamais, entraînant un effondrement de l'utilité. Cela indique que des scores de confiance verbale calibrés pourraient ne pas suffire à créer des systèmes d'IA fiables et interprétables, car les modèles actuels manquent de l'agence stratégique nécessaire pour convertir les signaux d'incertitude en décisions optimales et sensibles au risque.
English
Large Language Models (LLMs) can produce surprisingly sophisticated estimates of their own uncertainty. However, it remains unclear to what extent this expressed confidence is tied to the reasoning, knowledge, or decision making of the model. To test this, we introduce RiskEval: a framework designed to evaluate whether models adjust their abstention policies in response to varying error penalties. Our evaluation of several frontier models reveals a critical dissociation: models are neither cost-aware when articulating their verbal confidence, nor strategically responsive when deciding whether to engage or abstain under high-penalty conditions. Even when extreme penalties render frequent abstention the mathematically optimal strategy, models almost never abstain, resulting in utility collapse. This indicates that calibrated verbal confidence scores may not be sufficient to create trustworthy and interpretable AI systems, as current models lack the strategic agency to convert uncertainty signals into optimal and risk-sensitive decisions.