Модели рассуждений точнее выражают свою уверенность

Аннотация

Несмотря на свои сильные стороны, крупные языковые модели (LLM) часто не могут точно выразить свою уверенность, что затрудняет оценку их возможных ошибок и снижает их надежность. В данной работе мы демонстрируем, что модели, использующие расширенное цепочечное рассуждение (CoT), не только превосходят другие модели в решении задач, но и точнее выражают свою уверенность. В частности, мы протестировали шесть моделей с рассуждениями на шести наборах данных и обнаружили, что они демонстрируют строго лучшую калибровку уверенности по сравнению с моделями без рассуждений в 33 из 36 случаев. Наш детальный анализ показывает, что эти улучшения в калибровке обусловлены "медленным мышлением" моделей с рассуждениями — такими как исследование альтернативных подходов и возврат к предыдущим шагам, — что позволяет им динамически корректировать свою уверенность в процессе CoT, делая её всё более точной. В частности, мы обнаружили, что модели с рассуждениями становятся всё лучше калиброванными по мере развёртывания их CoT, чего не наблюдается у моделей без рассуждений. Более того, удаление элементов "медленного мышления" из CoT приводит к значительному ухудшению калибровки. Наконец, мы показываем, что эти преимущества не ограничиваются моделями с рассуждениями — модели без рассуждений также улучшают свою калибровку, если их направлять на "медленное мышление" через обучение в контексте.

English

Despite their strengths, large language models (LLMs) often fail to communicate their confidence accurately, making it difficult to assess when they might be wrong and limiting their reliability. In this work, we demonstrate that reasoning models-LLMs that engage in extended chain-of-thought (CoT) reasoning-exhibit superior performance not only in problem-solving but also in accurately expressing their confidence. Specifically, we benchmark six reasoning models across six datasets and find that they achieve strictly better confidence calibration than their non-reasoning counterparts in 33 out of the 36 settings. Our detailed analysis reveals that these gains in calibration stem from the slow thinking behaviors of reasoning models-such as exploring alternative approaches and backtracking-which enable them to adjust their confidence dynamically throughout their CoT, making it progressively more accurate. In particular, we find that reasoning models become increasingly better calibrated as their CoT unfolds, a trend not observed in non-reasoning models. Moreover, removing slow thinking behaviors from the CoT leads to a significant drop in calibration. Lastly, we show that these gains are not exclusive to reasoning models-non-reasoning models also benefit when guided to perform slow thinking via in-context learning.

Модели рассуждений точнее выражают свою уверенность

Reasoning Models Better Express Their Confidence

Аннотация

Support