De klim graveert wijsheid dieper dan de top: over de ruis in beloningen bij het leren redeneren
The Climb Carves Wisdom Deeper Than the Summit: On the Noisy Rewards in Learning to Reason
May 28, 2025
Auteurs: Ang Lv, Ruobing Xie, Xingwu Sun, Zhanhui Kang, Rui Yan
cs.AI
Samenvatting
Recente studies over het na-trainen van grote taalmodellen (LLMs) voor redeneren
door middel van reinforcement learning (RL) richten zich doorgaans op taken die
nauwkeurig kunnen worden geverifieerd en beloond, zoals het oplossen van wiskundige problemen. Daarentegen
onderzoekt ons onderzoek de impact van ruis in beloningen, een meer praktische
overweging voor realistische scenario's die betrekking hebben op het na-trainen van LLMs
met behulp van beloningsmodellen. We ontdekten dat LLMs een sterke robuustheid vertonen
ten opzichte van aanzienlijke ruis in beloningen. Zo kan het handmatig omdraaien van 40% van de uitkomsten van de beloningsfunctie
in wiskundige taken een Qwen-2.5-7B-model nog steeds snelle convergentie laten bereiken, waarbij de prestaties op wiskundige taken verbeteren van 5% naar 72%,
vergeleken met de 75% nauwkeurigheid die wordt behaald door een model dat is getraind met ruisvrije
beloningen. Verrassend genoeg bereikte het model, door alleen het voorkomen van sleutelredeneringszinnen te belonen (namelijk reasoning pattern reward, RPR),
zoals "eerst moet ik"-zonder de juistheid van antwoorden te verifiëren, een piek in downstreamprestaties (meer dan 70% nauwkeurigheid voor Qwen-2.5-7B) die vergelijkbaar is met modellen
die zijn getraind met strikte correctheidsverificatie en nauwkeurige beloningen. Erkennend
het belang van het redeneerproces boven de eindresultaten, combineerden we RPR
met ruisige beloningsmodellen. RPR hielp bij het kalibreren van de ruisige beloningsmodellen,
het verminderen van potentiële fout-negatieven en het verbeteren van de prestaties van het LLM op
open-eindtaken. Deze bevindingen suggereren het belang van het verbeteren van de fundamentele vaardigheden van modellen
tijdens de pre-trainingsfase, terwijl ze inzichten bieden voor het bevorderen van na-trainings-technieken. Onze code en scripts zijn beschikbaar op
https://github.com/trestad/Noisy-Rewards-in-Learning-to-Reason.
English
Recent studies on post-training large language models (LLMs) for reasoning
through reinforcement learning (RL) typically focus on tasks that can be
accurately verified and rewarded, such as solving math problems. In contrast,
our research investigates the impact of reward noise, a more practical
consideration for real-world scenarios involving the post-training of LLMs
using reward models. We found that LLMs demonstrate strong robustness to
substantial reward noise. For example, manually flipping 40% of the reward
function's outputs in math tasks still allows a Qwen-2.5-7B model to achieve
rapid convergence, improving its performance on math tasks from 5% to 72%,
compared to the 75% accuracy achieved by a model trained with noiseless
rewards. Surprisingly, by only rewarding the appearance of key reasoning
phrases (namely reasoning pattern reward, RPR), such as ``first, I need
to''-without verifying the correctness of answers, the model achieved peak
downstream performance (over 70% accuracy for Qwen-2.5-7B) comparable to models
trained with strict correctness verification and accurate rewards. Recognizing
the importance of the reasoning process over the final results, we combined RPR
with noisy reward models. RPR helped calibrate the noisy reward models,
mitigating potential false negatives and enhancing the LLM's performance on
open-ended tasks. These findings suggest the importance of improving models'
foundational abilities during the pre-training phase while providing insights
for advancing post-training techniques. Our code and scripts are available at
https://github.com/trestad/Noisy-Rewards-in-Learning-to-Reason.