La Scalata Incide la Saggezza Più Profonda della Vetta: Sulle Ricompense Rumoreggianti nell'Apprendimento del Ragionamento
The Climb Carves Wisdom Deeper Than the Summit: On the Noisy Rewards in Learning to Reason
May 28, 2025
Autori: Ang Lv, Ruobing Xie, Xingwu Sun, Zhanhui Kang, Rui Yan
cs.AI
Abstract
Studi recenti sul post-addestramento di modelli linguistici di grandi dimensioni (LLM) per il ragionamento attraverso l'apprendimento per rinforzo (RL) si concentrano tipicamente su compiti che possono essere verificati e premiati con precisione, come la risoluzione di problemi matematici. Al contrario, la nostra ricerca indaga l'impatto del rumore nelle ricompense, una considerazione più pratica per scenari reali che coinvolgono il post-addestramento di LLM utilizzando modelli di ricompensa. Abbiamo scoperto che gli LLM dimostrano una forte robustezza a un rumore sostanziale nelle ricompense. Ad esempio, invertendo manualmente il 40% degli output della funzione di ricompensa in compiti matematici, un modello Qwen-2.5-7B riesce comunque a raggiungere una rapida convergenza, migliorando le sue prestazioni nei compiti matematici dal 5% al 72%, rispetto alla precisione del 75% ottenuta da un modello addestrato con ricompense prive di rumore. Sorprendentemente, premiando solo la comparsa di frasi chiave di ragionamento (denominata ricompensa per il pattern di ragionamento, RPR), come "prima, devo" - senza verificare la correttezza delle risposte - il modello ha raggiunto prestazioni di picco (oltre il 70% di precisione per Qwen-2.5-7B) paragonabili a quelle dei modelli addestrati con una verifica rigorosa della correttezza e ricompense accurate. Riconoscendo l'importanza del processo di ragionamento rispetto ai risultati finali, abbiamo combinato RPR con modelli di ricompensa rumorosi. RPR ha aiutato a calibrare i modelli di ricompensa rumorosi, mitigando potenziali falsi negativi e migliorando le prestazioni degli LLM su compiti aperti. Questi risultati suggeriscono l'importanza di migliorare le capacità fondamentali dei modelli durante la fase di pre-addestramento, fornendo al contempo spunti per avanzare le tecniche di post-addestramento. Il nostro codice e gli script sono disponibili all'indirizzo https://github.com/trestad/Noisy-Rewards-in-Learning-to-Reason.
English
Recent studies on post-training large language models (LLMs) for reasoning
through reinforcement learning (RL) typically focus on tasks that can be
accurately verified and rewarded, such as solving math problems. In contrast,
our research investigates the impact of reward noise, a more practical
consideration for real-world scenarios involving the post-training of LLMs
using reward models. We found that LLMs demonstrate strong robustness to
substantial reward noise. For example, manually flipping 40% of the reward
function's outputs in math tasks still allows a Qwen-2.5-7B model to achieve
rapid convergence, improving its performance on math tasks from 5% to 72%,
compared to the 75% accuracy achieved by a model trained with noiseless
rewards. Surprisingly, by only rewarding the appearance of key reasoning
phrases (namely reasoning pattern reward, RPR), such as ``first, I need
to''-without verifying the correctness of answers, the model achieved peak
downstream performance (over 70% accuracy for Qwen-2.5-7B) comparable to models
trained with strict correctness verification and accurate rewards. Recognizing
the importance of the reasoning process over the final results, we combined RPR
with noisy reward models. RPR helped calibrate the noisy reward models,
mitigating potential false negatives and enhancing the LLM's performance on
open-ended tasks. These findings suggest the importance of improving models'
foundational abilities during the pre-training phase while providing insights
for advancing post-training techniques. Our code and scripts are available at
https://github.com/trestad/Noisy-Rewards-in-Learning-to-Reason.