Модели рассуждений точнее выражают свою уверенность
Reasoning Models Better Express Their Confidence
May 20, 2025
Авторы: Dongkeun Yoon, Seungone Kim, Sohee Yang, Sunkyoung Kim, Soyeon Kim, Yongil Kim, Eunbi Choi, Yireun Kim, Minjoon Seo
cs.AI
Аннотация
Несмотря на свои сильные стороны, крупные языковые модели (LLM) часто не могут точно выразить свою уверенность, что затрудняет оценку их возможных ошибок и снижает их надежность. В данной работе мы демонстрируем, что модели, использующие расширенное цепочечное рассуждение (CoT), не только превосходят другие модели в решении задач, но и точнее выражают свою уверенность. В частности, мы протестировали шесть моделей с рассуждениями на шести наборах данных и обнаружили, что они демонстрируют строго лучшую калибровку уверенности по сравнению с моделями без рассуждений в 33 из 36 случаев. Наш детальный анализ показывает, что эти улучшения в калибровке обусловлены "медленным мышлением" моделей с рассуждениями — такими как исследование альтернативных подходов и возврат к предыдущим шагам, — что позволяет им динамически корректировать свою уверенность в процессе CoT, делая её всё более точной. В частности, мы обнаружили, что модели с рассуждениями становятся всё лучше калиброванными по мере развёртывания их CoT, чего не наблюдается у моделей без рассуждений. Более того, удаление элементов "медленного мышления" из CoT приводит к значительному ухудшению калибровки. Наконец, мы показываем, что эти преимущества не ограничиваются моделями с рассуждениями — модели без рассуждений также улучшают свою калибровку, если их направлять на "медленное мышление" через обучение в контексте.
English
Despite their strengths, large language models (LLMs) often fail to
communicate their confidence accurately, making it difficult to assess when
they might be wrong and limiting their reliability. In this work, we
demonstrate that reasoning models-LLMs that engage in extended chain-of-thought
(CoT) reasoning-exhibit superior performance not only in problem-solving but
also in accurately expressing their confidence. Specifically, we benchmark six
reasoning models across six datasets and find that they achieve strictly better
confidence calibration than their non-reasoning counterparts in 33 out of the
36 settings. Our detailed analysis reveals that these gains in calibration stem
from the slow thinking behaviors of reasoning models-such as exploring
alternative approaches and backtracking-which enable them to adjust their
confidence dynamically throughout their CoT, making it progressively more
accurate. In particular, we find that reasoning models become increasingly
better calibrated as their CoT unfolds, a trend not observed in non-reasoning
models. Moreover, removing slow thinking behaviors from the CoT leads to a
significant drop in calibration. Lastly, we show that these gains are not
exclusive to reasoning models-non-reasoning models also benefit when guided to
perform slow thinking via in-context learning.Summary
AI-Generated Summary