I modelli di ragionamento esprimono meglio la loro confidenza
Reasoning Models Better Express Their Confidence
May 20, 2025
Autori: Dongkeun Yoon, Seungone Kim, Sohee Yang, Sunkyoung Kim, Soyeon Kim, Yongil Kim, Eunbi Choi, Yireun Kim, Minjoon Seo
cs.AI
Abstract
Nonostante i loro punti di forza, i grandi modelli linguistici (LLM) spesso non riescono a comunicare accuratamente il loro livello di confidenza, rendendo difficile valutare quando potrebbero sbagliare e limitando la loro affidabilità. In questo lavoro, dimostriamo che i modelli di ragionamento - LLM che si impegnano in un ragionamento a catena di pensiero (CoT) esteso - mostrano prestazioni superiori non solo nella risoluzione dei problemi, ma anche nell'esprimere con precisione la loro confidenza. Nello specifico, valutiamo sei modelli di ragionamento su sei dataset e riscontriamo che ottengono una calibrazione della confidenza nettamente migliore rispetto alle loro controparti non di ragionamento in 33 su 36 contesti. La nostra analisi dettagliata rivela che questi miglioramenti nella calibrazione derivano dai comportamenti di "pensiero lento" dei modelli di ragionamento - come l'esplorazione di approcci alternativi e il backtracking - che consentono loro di adattare dinamicamente la loro confidenza durante il CoT, rendendola progressivamente più accurata. In particolare, osserviamo che i modelli di ragionamento diventano sempre meglio calibrati man mano che il CoT si sviluppa, una tendenza non riscontrata nei modelli non di ragionamento. Inoltre, rimuovere i comportamenti di pensiero lento dal CoT porta a un significativo calo nella calibrazione. Infine, mostriamo che questi miglioramenti non sono esclusivi dei modelli di ragionamento - anche i modelli non di ragionamento traggono beneficio quando vengono guidati a eseguire pensiero lento tramite apprendimento in contesto.
English
Despite their strengths, large language models (LLMs) often fail to
communicate their confidence accurately, making it difficult to assess when
they might be wrong and limiting their reliability. In this work, we
demonstrate that reasoning models-LLMs that engage in extended chain-of-thought
(CoT) reasoning-exhibit superior performance not only in problem-solving but
also in accurately expressing their confidence. Specifically, we benchmark six
reasoning models across six datasets and find that they achieve strictly better
confidence calibration than their non-reasoning counterparts in 33 out of the
36 settings. Our detailed analysis reveals that these gains in calibration stem
from the slow thinking behaviors of reasoning models-such as exploring
alternative approaches and backtracking-which enable them to adjust their
confidence dynamically throughout their CoT, making it progressively more
accurate. In particular, we find that reasoning models become increasingly
better calibrated as their CoT unfolds, a trend not observed in non-reasoning
models. Moreover, removing slow thinking behaviors from the CoT leads to a
significant drop in calibration. Lastly, we show that these gains are not
exclusive to reasoning models-non-reasoning models also benefit when guided to
perform slow thinking via in-context learning.