Entsprechen LLM-Entscheidungen der verbalen Konfidenz?
Are LLM Decisions Faithful to Verbal Confidence?
January 12, 2026
papers.authors: Jiawei Wang, Yanfei Zhou, Siddartha Devic, Deqing Fu
cs.AI
papers.abstract
Große Sprachmodelle (LLMs) können überraschend differenzierte Einschätzungen ihrer eigenen Unsicherheit liefern. Es bleibt jedoch unklar, inwieweit dieses artikulierte Vertrauen mit der Denkweise, dem Wissen oder der Entscheidungsfindung des Modells verbunden ist. Um dies zu testen, führen wir RiskEval ein: einen Rahmen zur Bewertung, ob Modelle ihre Ablehnungsstrategien an variierende Fehlerkosten anpassen. Unsere Auswertung mehrerer führender Modelle zeigt eine kritische Dissoziation: Modelle zeigen weder Kostenbewusstsein bei der Formulierung ihres verbalen Vertrauens noch strategische Anpassungsfähigkeit bei der Entscheidung, unter hohen Strafkosten zu antworten oder abzulehnen. Selbst wenn extreme Strafen häufige Ablehnung zur mathematisch optimalen Strategie machen, verweigern Modelle die Antwort fast nie, was zu einem Nutzenkollaps führt. Dies deutet darauf hin, dass kalibrierte verbale Vertrauenswerte allein möglicherweise nicht ausreichen, um vertrauenswürdige und interpretierbare KI-Systeme zu schaffen, da heutigen Modellen die strategische Fähigkeit fehlt, Unsicherheitssignale in optimale und risikosensitive Entscheidungen umzusetzen.
English
Large Language Models (LLMs) can produce surprisingly sophisticated estimates of their own uncertainty. However, it remains unclear to what extent this expressed confidence is tied to the reasoning, knowledge, or decision making of the model. To test this, we introduce RiskEval: a framework designed to evaluate whether models adjust their abstention policies in response to varying error penalties. Our evaluation of several frontier models reveals a critical dissociation: models are neither cost-aware when articulating their verbal confidence, nor strategically responsive when deciding whether to engage or abstain under high-penalty conditions. Even when extreme penalties render frequent abstention the mathematically optimal strategy, models almost never abstain, resulting in utility collapse. This indicates that calibrated verbal confidence scores may not be sufficient to create trustworthy and interpretable AI systems, as current models lack the strategic agency to convert uncertainty signals into optimal and risk-sensitive decisions.