Voorbij Binaire Beloningen: Het Trainen van Taalmodellen om te Redeneren over Hun Onzekerheid
Beyond Binary Rewards: Training LMs to Reason About Their Uncertainty
July 22, 2025
Auteurs: Mehul Damani, Isha Puri, Stewart Slocum, Idan Shenfeld, Leshem Choshen, Yoon Kim, Jacob Andreas
cs.AI
Samenvatting
Wanneer taalmodelen (LMs) worden getraind via reinforcement learning (RL) om natuurlijke taal "redeneerketens" te genereren, verbetert hun prestaties op een verscheidenheid aan moeilijke vraag-antwoordtaken. Tegenwoordig gebruiken bijna alle succesvolle toepassingen van RL voor redeneren binaire beloningsfuncties die de correctheid van LM-uitvoer evalueren. Omdat dergelijke beloningsfuncties niet straffen voor gokken of uitvoer met weinig vertrouwen, hebben ze vaak het onbedoelde bijeffect dat ze de kalibratie verslechteren en de snelheid waarmee LMs onjuiste antwoorden genereren (of "hallucineren") in andere probleemdomeinen verhogen. Dit artikel beschrijft RLCR (Reinforcement Learning with Calibration Rewards), een benadering voor het trainen van redeneermodellen die zowel de nauwkeurigheid als de gekalibreerde betrouwbaarheidsschatting verbeteren. Tijdens RLCR genereren LMs zowel voorspellingen als numerieke betrouwbaarheidsschattingen na het redeneren. Ze worden getraind om een beloningsfunctie te optimaliseren die een binaire correctheidsscore aanvult met een Brier-score -- een scoringsregel voor betrouwbaarheidsschattingen die gekalibreerde voorspellingen stimuleert. We bewijzen eerst dat deze beloningsfunctie (of een analoge beloningsfunctie die een begrensde, juiste scoringsregel gebruikt) modellen oplevert waarvan de voorspellingen zowel nauwkeurig als goed gekalibreerd zijn. Vervolgens laten we zien dat RLCR over diverse datasets de kalibratie aanzienlijk verbetert zonder verlies van nauwkeurigheid, zowel bij in-domein als out-of-domein evaluaties -- en daarbij zowel gewone RL-training als classificatoren die getraind zijn om achteraf betrouwbaarheidsscores toe te kennen, overtreft. Terwijl gewone RL de kalibratie schaadt, verbetert RLCR deze. Tot slot demonstreren we dat verbaal uitgedrukt vertrouwen tijdens de testfase kan worden benut om de nauwkeurigheid en kalibratie te verbeteren via methoden voor gewogen schaling op basis van betrouwbaarheid. Onze resultaten tonen aan dat expliciet optimaliseren voor kalibratie meer algemeen betrouwbare redeneermodellen kan opleveren.
English
When language models (LMs) are trained via reinforcement learning (RL) to
generate natural language "reasoning chains", their performance improves on a
variety of difficult question answering tasks. Today, almost all successful
applications of RL for reasoning use binary reward functions that evaluate the
correctness of LM outputs. Because such reward functions do not penalize
guessing or low-confidence outputs, they often have the unintended side-effect
of degrading calibration and increasing the rate at which LMs generate
incorrect responses (or "hallucinate") in other problem domains. This paper
describes RLCR (Reinforcement Learning with Calibration Rewards), an approach
to training reasoning models that jointly improves accuracy and calibrated
confidence estimation. During RLCR, LMs generate both predictions and numerical
confidence estimates after reasoning. They are trained to optimize a reward
function that augments a binary correctness score with a Brier score -- a
scoring rule for confidence estimates that incentivizes calibrated prediction.
We first prove that this reward function (or any analogous reward function that
uses a bounded, proper scoring rule) yields models whose predictions are both
accurate and well-calibrated. We next show that across diverse datasets, RLCR
substantially improves calibration with no loss in accuracy, on both in-domain
and out-of-domain evaluations -- outperforming both ordinary RL training and
classifiers trained to assign post-hoc confidence scores. While ordinary RL
hurts calibration, RLCR improves it. Finally, we demonstrate that verbalized
confidence can be leveraged at test time to improve accuracy and calibration
via confidence-weighted scaling methods. Our results show that explicitly
optimizing for calibration can produce more generally reliable reasoning
models.