As decisões dos LLMs são fiéis à confiança verbal?

Resumo

Os Grandes Modelos de Linguagem (LLMs) podem produzir estimativas surpreendentemente sofisticadas da sua própria incerteza. No entanto, permanece pouco claro até que ponto esta confiança expressa está ligada ao raciocínio, conhecimento ou tomada de decisão do modelo. Para testar isto, introduzimos o RiskEval: uma estrutura concebida para avaliar se os modelos ajustam as suas políticas de abstenção em resposta a diferentes penalizações por erro. A nossa avaliação de vários modelos de ponta revela uma dissociação crítica: os modelos não são conscientes do custo ao articular a sua confiança verbal, nem respondem estrategicamente ao decidir se devem participar ou abster-se em condições de alta penalização. Mesmo quando penalizações extremas tornam a abstenção frequente a estratégia matematicamente ótima, os modelos quase nunca se abstêm, resultando num colapso de utilidade. Isto indica que as pontuações de confiança verbal calibradas podem não ser suficientes para criar sistemas de IA confiáveis e interpretáveis, uma vez que os modelos atuais carecem da agência estratégica necessária para converter sinais de incerteza em decisões ótimas e sensíveis ao risco.

English

Large Language Models (LLMs) can produce surprisingly sophisticated estimates of their own uncertainty. However, it remains unclear to what extent this expressed confidence is tied to the reasoning, knowledge, or decision making of the model. To test this, we introduce RiskEval: a framework designed to evaluate whether models adjust their abstention policies in response to varying error penalties. Our evaluation of several frontier models reveals a critical dissociation: models are neither cost-aware when articulating their verbal confidence, nor strategically responsive when deciding whether to engage or abstain under high-penalty conditions. Even when extreme penalties render frequent abstention the mathematically optimal strategy, models almost never abstain, resulting in utility collapse. This indicates that calibrated verbal confidence scores may not be sufficient to create trustworthy and interpretable AI systems, as current models lack the strategic agency to convert uncertainty signals into optimal and risk-sensitive decisions.

As decisões dos LLMs são fiéis à confiança verbal?

Are LLM Decisions Faithful to Verbal Confidence?

Resumo

Support