Zijn de beslissingen van LLM's consistent met hun verbale vertrouwen?
Are LLM Decisions Faithful to Verbal Confidence?
January 12, 2026
Auteurs: Jiawei Wang, Yanfei Zhou, Siddartha Devic, Deqing Fu
cs.AI
Samenvatting
Grote Taalmodellen (GTM's) kunnen verrassend genuanceerde inschattingen van hun eigen onzekerheid produceren. Het blijft echter onduidelijk in hoeverre dit uitgesproken vertrouwen verbonden is met de redenering, kennis of besluitvorming van het model. Om dit te testen, introduceren we RiskEval: een raamwerk ontworpen om te evalueren of modellen hun abstentiebeleid aanpassen in reactie op variërende foutkosten. Onze evaluatie van verschillende frontier-modellen onthult een kritieke dissociatie: modellen zijn noch kostbewust bij het verwoorden van hun verbale vertrouwen, noch strategisch responsief bij het beslissen om deel te nemen of zich te onthouden onder omstandigheden met hoge straffen. Zelfs wanneer extreme straffen frequente onthouding tot de wiskundig optimale strategie maken, onthouden modellen zich vrijwel nooit, wat leidt tot een utility-implosie. Dit geeft aan dat gekalibreerde verbale vertrouwensscores mogelijk niet voldoende zijn om betrouwbare en interpreteerbare AI-systemen te creëren, omdat huidige modellen het strategische vermogen missen om onzekerheidssignalen om te zetten in optimale en risicogevoelige beslissingen.
English
Large Language Models (LLMs) can produce surprisingly sophisticated estimates of their own uncertainty. However, it remains unclear to what extent this expressed confidence is tied to the reasoning, knowledge, or decision making of the model. To test this, we introduce RiskEval: a framework designed to evaluate whether models adjust their abstention policies in response to varying error penalties. Our evaluation of several frontier models reveals a critical dissociation: models are neither cost-aware when articulating their verbal confidence, nor strategically responsive when deciding whether to engage or abstain under high-penalty conditions. Even when extreme penalties render frequent abstention the mathematically optimal strategy, models almost never abstain, resulting in utility collapse. This indicates that calibrated verbal confidence scores may not be sufficient to create trustworthy and interpretable AI systems, as current models lack the strategic agency to convert uncertainty signals into optimal and risk-sensitive decisions.