Além de Recompensas Binárias: Treinando Modelos de Linguagem para Raciocinar sobre Sua Incerteza
Beyond Binary Rewards: Training LMs to Reason About Their Uncertainty
July 22, 2025
Autores: Mehul Damani, Isha Puri, Stewart Slocum, Idan Shenfeld, Leshem Choshen, Yoon Kim, Jacob Andreas
cs.AI
Resumo
Quando modelos de linguagem (LMs) são treinados via aprendizado por reforço (RL) para gerar "cadeias de raciocínio" em linguagem natural, seu desempenho melhora em uma variedade de tarefas difíceis de resposta a perguntas. Hoje, quase todas as aplicações bem-sucedidas de RL para raciocínio usam funções de recompensa binárias que avaliam a correção das saídas dos LMs. Como tais funções de recompensa não penalizam palpites ou saídas de baixa confiança, elas frequentemente têm o efeito colateral indesejado de degradar a calibração e aumentar a taxa na qual os LMs geram respostas incorretas (ou "alucinam") em outros domínios de problemas. Este artigo descreve o RLCR (Reinforcement Learning with Calibration Rewards), uma abordagem para treinar modelos de raciocínio que melhora conjuntamente a precisão e a estimativa de confiança calibrada. Durante o RLCR, os LMs geram tanto previsões quanto estimativas numéricas de confiança após o raciocínio. Eles são treinados para otimizar uma função de recompensa que aumenta uma pontuação binária de correção com um escore de Brier — uma regra de pontuação para estimativas de confiança que incentiva a previsão calibrada. Primeiro, provamos que essa função de recompensa (ou qualquer função de recompensa análoga que use uma regra de pontuação própria e limitada) produz modelos cujas previsões são tanto precisas quanto bem calibradas. Em seguida, mostramos que, em diversos conjuntos de dados, o RLCR melhora substancialmente a calibração sem perda de precisão, tanto em avaliações dentro do domínio quanto fora dele — superando tanto o treinamento RL comum quanto classificadores treinados para atribuir pontuações de confiança pós-hoc. Enquanto o RL comum prejudica a calibração, o RLCR a melhora. Por fim, demonstramos que a confiança verbalizada pode ser aproveitada no momento do teste para melhorar a precisão e a calibração por meio de métodos de ponderação de confiança. Nossos resultados mostram que otimizar explicitamente para a calibração pode produzir modelos de raciocínio mais confiáveis em geral.
English
When language models (LMs) are trained via reinforcement learning (RL) to
generate natural language "reasoning chains", their performance improves on a
variety of difficult question answering tasks. Today, almost all successful
applications of RL for reasoning use binary reward functions that evaluate the
correctness of LM outputs. Because such reward functions do not penalize
guessing or low-confidence outputs, they often have the unintended side-effect
of degrading calibration and increasing the rate at which LMs generate
incorrect responses (or "hallucinate") in other problem domains. This paper
describes RLCR (Reinforcement Learning with Calibration Rewards), an approach
to training reasoning models that jointly improves accuracy and calibrated
confidence estimation. During RLCR, LMs generate both predictions and numerical
confidence estimates after reasoning. They are trained to optimize a reward
function that augments a binary correctness score with a Brier score -- a
scoring rule for confidence estimates that incentivizes calibrated prediction.
We first prove that this reward function (or any analogous reward function that
uses a bounded, proper scoring rule) yields models whose predictions are both
accurate and well-calibrated. We next show that across diverse datasets, RLCR
substantially improves calibration with no loss in accuracy, on both in-domain
and out-of-domain evaluations -- outperforming both ordinary RL training and
classifiers trained to assign post-hoc confidence scores. While ordinary RL
hurts calibration, RLCR improves it. Finally, we demonstrate that verbalized
confidence can be leveraged at test time to improve accuracy and calibration
via confidence-weighted scaling methods. Our results show that explicitly
optimizing for calibration can produce more generally reliable reasoning
models.