Voorbij Binaire Beloningen: Het Trainen van Taalmodellen om te Redeneren over Hun Onzekerheid

Samenvatting

Wanneer taalmodelen (LMs) worden getraind via reinforcement learning (RL) om natuurlijke taal "redeneerketens" te genereren, verbetert hun prestaties op een verscheidenheid aan moeilijke vraag-antwoordtaken. Tegenwoordig gebruiken bijna alle succesvolle toepassingen van RL voor redeneren binaire beloningsfuncties die de correctheid van LM-uitvoer evalueren. Omdat dergelijke beloningsfuncties niet straffen voor gokken of uitvoer met weinig vertrouwen, hebben ze vaak het onbedoelde bijeffect dat ze de kalibratie verslechteren en de snelheid waarmee LMs onjuiste antwoorden genereren (of "hallucineren") in andere probleemdomeinen verhogen. Dit artikel beschrijft RLCR (Reinforcement Learning with Calibration Rewards), een benadering voor het trainen van redeneermodellen die zowel de nauwkeurigheid als de gekalibreerde betrouwbaarheidsschatting verbeteren. Tijdens RLCR genereren LMs zowel voorspellingen als numerieke betrouwbaarheidsschattingen na het redeneren. Ze worden getraind om een beloningsfunctie te optimaliseren die een binaire correctheidsscore aanvult met een Brier-score -- een scoringsregel voor betrouwbaarheidsschattingen die gekalibreerde voorspellingen stimuleert. We bewijzen eerst dat deze beloningsfunctie (of een analoge beloningsfunctie die een begrensde, juiste scoringsregel gebruikt) modellen oplevert waarvan de voorspellingen zowel nauwkeurig als goed gekalibreerd zijn. Vervolgens laten we zien dat RLCR over diverse datasets de kalibratie aanzienlijk verbetert zonder verlies van nauwkeurigheid, zowel bij in-domein als out-of-domein evaluaties -- en daarbij zowel gewone RL-training als classificatoren die getraind zijn om achteraf betrouwbaarheidsscores toe te kennen, overtreft. Terwijl gewone RL de kalibratie schaadt, verbetert RLCR deze. Tot slot demonstreren we dat verbaal uitgedrukt vertrouwen tijdens de testfase kan worden benut om de nauwkeurigheid en kalibratie te verbeteren via methoden voor gewogen schaling op basis van betrouwbaarheid. Onze resultaten tonen aan dat expliciet optimaliseren voor kalibratie meer algemeen betrouwbare redeneermodellen kan opleveren.

English

When language models (LMs) are trained via reinforcement learning (RL) to generate natural language "reasoning chains", their performance improves on a variety of difficult question answering tasks. Today, almost all successful applications of RL for reasoning use binary reward functions that evaluate the correctness of LM outputs. Because such reward functions do not penalize guessing or low-confidence outputs, they often have the unintended side-effect of degrading calibration and increasing the rate at which LMs generate incorrect responses (or "hallucinate") in other problem domains. This paper describes RLCR (Reinforcement Learning with Calibration Rewards), an approach to training reasoning models that jointly improves accuracy and calibrated confidence estimation. During RLCR, LMs generate both predictions and numerical confidence estimates after reasoning. They are trained to optimize a reward function that augments a binary correctness score with a Brier score -- a scoring rule for confidence estimates that incentivizes calibrated prediction. We first prove that this reward function (or any analogous reward function that uses a bounded, proper scoring rule) yields models whose predictions are both accurate and well-calibrated. We next show that across diverse datasets, RLCR substantially improves calibration with no loss in accuracy, on both in-domain and out-of-domain evaluations -- outperforming both ordinary RL training and classifiers trained to assign post-hoc confidence scores. While ordinary RL hurts calibration, RLCR improves it. Finally, we demonstrate that verbalized confidence can be leveraged at test time to improve accuracy and calibration via confidence-weighted scaling methods. Our results show that explicitly optimizing for calibration can produce more generally reliable reasoning models.

Voorbij Binaire Beloningen: Het Trainen van Taalmodellen om te Redeneren over Hun Onzekerheid

Beyond Binary Rewards: Training LMs to Reason About Their Uncertainty

Samenvatting

Support