Der Aufstieg schärft die Weisheit tiefer als der Gipfel: Über die verrauschten Belohnungen beim Erlernen des logischen Denkens
The Climb Carves Wisdom Deeper Than the Summit: On the Noisy Rewards in Learning to Reason
May 28, 2025
Autoren: Ang Lv, Ruobing Xie, Xingwu Sun, Zhanhui Kang, Rui Yan
cs.AI
Zusammenfassung
Aktuelle Studien zur Nachschulung großer Sprachmodelle (LLMs) für das logische Denken durch Verstärkungslernen (Reinforcement Learning, RL) konzentrieren sich typischerweise auf Aufgaben, die präzise überprüft und belohnt werden können, wie das Lösen von Matheproblemen. Im Gegensatz dazu untersucht unsere Forschung die Auswirkungen von Rauschen in den Belohnungen, eine praxisrelevante Überlegung für reale Szenarien, die die Nachschulung von LLMs mithilfe von Belohnungsmodellen betreffen. Wir fanden heraus, dass LLMs eine starke Robustheit gegenüber erheblichem Rauschen in den Belohnungen zeigen. Beispielsweise ermöglicht das manuelle Umkehren von 40 % der Ausgaben der Belohnungsfunktion in Matheaufgaben einem Qwen-2.5-7B-Modell dennoch eine schnelle Konvergenz, wodurch sich seine Leistung bei Matheaufgaben von 5 % auf 72 % verbessert, verglichen mit der 75 % Genauigkeit eines Modells, das mit rauschfreien Belohnungen trainiert wurde. Überraschenderweise erreichte das Modell durch die ausschließliche Belohnung des Auftretens von Schlüsselphrasen des logischen Denkens (sogenannte Reasoning Pattern Reward, RPR), wie „zuerst muss ich“ – ohne die Korrektheit der Antworten zu überprüfen – eine Spitzenleistung in nachgelagerten Aufgaben (über 70 % Genauigkeit für Qwen-2.5-7B), die mit Modellen vergleichbar ist, die mit strenger Korrektheitsüberprüfung und präzisen Belohnungen trainiert wurden. In Anerkennung der Bedeutung des Denkprozesses gegenüber den Endergebnissen kombinierten wir RPR mit rauschbehafteten Belohnungsmodellen. RPR half dabei, die rauschbehafteten Belohnungsmodelle zu kalibrieren, potenzielle falsche Negative zu reduzieren und die Leistung des LLMs bei offenen Aufgaben zu verbessern. Diese Erkenntnisse unterstreichen die Bedeutung der Verbesserung der grundlegenden Fähigkeiten von Modellen während der Vorausbildungsphase und liefern gleichzeitig Einblicke für die Weiterentwicklung von Nachschulungstechniken. Unser Code und unsere Skripte sind unter https://github.com/trestad/Noisy-Rewards-in-Learning-to-Reason verfügbar.
English
Recent studies on post-training large language models (LLMs) for reasoning
through reinforcement learning (RL) typically focus on tasks that can be
accurately verified and rewarded, such as solving math problems. In contrast,
our research investigates the impact of reward noise, a more practical
consideration for real-world scenarios involving the post-training of LLMs
using reward models. We found that LLMs demonstrate strong robustness to
substantial reward noise. For example, manually flipping 40% of the reward
function's outputs in math tasks still allows a Qwen-2.5-7B model to achieve
rapid convergence, improving its performance on math tasks from 5% to 72%,
compared to the 75% accuracy achieved by a model trained with noiseless
rewards. Surprisingly, by only rewarding the appearance of key reasoning
phrases (namely reasoning pattern reward, RPR), such as ``first, I need
to''-without verifying the correctness of answers, the model achieved peak
downstream performance (over 70% accuracy for Qwen-2.5-7B) comparable to models
trained with strict correctness verification and accurate rewards. Recognizing
the importance of the reasoning process over the final results, we combined RPR
with noisy reward models. RPR helped calibrate the noisy reward models,
mitigating potential false negatives and enhancing the LLM's performance on
open-ended tasks. These findings suggest the importance of improving models'
foundational abilities during the pre-training phase while providing insights
for advancing post-training techniques. Our code and scripts are available at
https://github.com/trestad/Noisy-Rewards-in-Learning-to-Reason.Summary
AI-Generated Summary