Além de Recompensas Binárias: Treinando Modelos de Linguagem para Raciocinar sobre Sua Incerteza

Resumo

Quando modelos de linguagem (LMs) são treinados via aprendizado por reforço (RL) para gerar "cadeias de raciocínio" em linguagem natural, seu desempenho melhora em uma variedade de tarefas difíceis de resposta a perguntas. Hoje, quase todas as aplicações bem-sucedidas de RL para raciocínio usam funções de recompensa binárias que avaliam a correção das saídas dos LMs. Como tais funções de recompensa não penalizam palpites ou saídas de baixa confiança, elas frequentemente têm o efeito colateral indesejado de degradar a calibração e aumentar a taxa na qual os LMs geram respostas incorretas (ou "alucinam") em outros domínios de problemas. Este artigo descreve o RLCR (Reinforcement Learning with Calibration Rewards), uma abordagem para treinar modelos de raciocínio que melhora conjuntamente a precisão e a estimativa de confiança calibrada. Durante o RLCR, os LMs geram tanto previsões quanto estimativas numéricas de confiança após o raciocínio. Eles são treinados para otimizar uma função de recompensa que aumenta uma pontuação binária de correção com um escore de Brier — uma regra de pontuação para estimativas de confiança que incentiva a previsão calibrada. Primeiro, provamos que essa função de recompensa (ou qualquer função de recompensa análoga que use uma regra de pontuação própria e limitada) produz modelos cujas previsões são tanto precisas quanto bem calibradas. Em seguida, mostramos que, em diversos conjuntos de dados, o RLCR melhora substancialmente a calibração sem perda de precisão, tanto em avaliações dentro do domínio quanto fora dele — superando tanto o treinamento RL comum quanto classificadores treinados para atribuir pontuações de confiança pós-hoc. Enquanto o RL comum prejudica a calibração, o RLCR a melhora. Por fim, demonstramos que a confiança verbalizada pode ser aproveitada no momento do teste para melhorar a precisão e a calibração por meio de métodos de ponderação de confiança. Nossos resultados mostram que otimizar explicitamente para a calibração pode produzir modelos de raciocínio mais confiáveis em geral.

English

When language models (LMs) are trained via reinforcement learning (RL) to generate natural language "reasoning chains", their performance improves on a variety of difficult question answering tasks. Today, almost all successful applications of RL for reasoning use binary reward functions that evaluate the correctness of LM outputs. Because such reward functions do not penalize guessing or low-confidence outputs, they often have the unintended side-effect of degrading calibration and increasing the rate at which LMs generate incorrect responses (or "hallucinate") in other problem domains. This paper describes RLCR (Reinforcement Learning with Calibration Rewards), an approach to training reasoning models that jointly improves accuracy and calibrated confidence estimation. During RLCR, LMs generate both predictions and numerical confidence estimates after reasoning. They are trained to optimize a reward function that augments a binary correctness score with a Brier score -- a scoring rule for confidence estimates that incentivizes calibrated prediction. We first prove that this reward function (or any analogous reward function that uses a bounded, proper scoring rule) yields models whose predictions are both accurate and well-calibrated. We next show that across diverse datasets, RLCR substantially improves calibration with no loss in accuracy, on both in-domain and out-of-domain evaluations -- outperforming both ordinary RL training and classifiers trained to assign post-hoc confidence scores. While ordinary RL hurts calibration, RLCR improves it. Finally, we demonstrate that verbalized confidence can be leveraged at test time to improve accuracy and calibration via confidence-weighted scaling methods. Our results show that explicitly optimizing for calibration can produce more generally reliable reasoning models.

Além de Recompensas Binárias: Treinando Modelos de Linguagem para Raciocinar sobre Sua Incerteza

Beyond Binary Rewards: Training LMs to Reason About Their Uncertainty

Resumo

Support