Le decisioni dei LLM sono fedeli alla fiducia verbale?

Abstract

I modelli linguistici di grandi dimensioni (LLM) sono in grado di produrre stime della propria incertezza sorprendentemente sofisticate. Tuttavia, rimane poco chiaro fino a che punto questa fiducia espressa sia legata al ragionamento, alla conoscenza o al processo decisionale del modello. Per testare ciò, introduciamo RiskEval: un framework progettato per valutare se i modelli adattano le loro politiche di astensione in risposta a diverse penalità per errore. La nostra valutazione di diversi modelli all'avanguardia rivela una dissociazione critica: i modelli non sono né consapevoli dei costi quando articolano la loro fiducia verbale, né strategicamente reattivi quando decidono se affrontare un compito o astenersi in condizioni di penalità elevate. Anche quando penalità estreme rendono l'astensione frequente la strategia matematicamente ottimale, i modelli quasi mai si astengono, risultando in un collasso dell'utilità. Ciò indica che punteggi di fiducia verbale calibrati potrebbero non essere sufficienti per creare sistemi di IA affidabili e interpretabili, poiché i modelli attuali mancano dell'agenzia strategica necessaria per convertire i segnali di incertezza in decisioni ottimali e sensibili al rischio.

English

Large Language Models (LLMs) can produce surprisingly sophisticated estimates of their own uncertainty. However, it remains unclear to what extent this expressed confidence is tied to the reasoning, knowledge, or decision making of the model. To test this, we introduce RiskEval: a framework designed to evaluate whether models adjust their abstention policies in response to varying error penalties. Our evaluation of several frontier models reveals a critical dissociation: models are neither cost-aware when articulating their verbal confidence, nor strategically responsive when deciding whether to engage or abstain under high-penalty conditions. Even when extreme penalties render frequent abstention the mathematically optimal strategy, models almost never abstain, resulting in utility collapse. This indicates that calibrated verbal confidence scores may not be sufficient to create trustworthy and interpretable AI systems, as current models lack the strategic agency to convert uncertainty signals into optimal and risk-sensitive decisions.

Le decisioni dei LLM sono fedeli alla fiducia verbale?

Are LLM Decisions Faithful to Verbal Confidence?

Abstract

Support