ProRL: Verlängertes Reinforcement Learning erweitert die Grenzen des logischen Denkens in großen Sprachmodellen
ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models
May 30, 2025
Autoren: Mingjie Liu, Shizhe Diao, Ximing Lu, Jian Hu, Xin Dong, Yejin Choi, Jan Kautz, Yi Dong
cs.AI
Zusammenfassung
Jüngste Fortschritte bei sprachmodellbasierten Ansätzen mit Schwerpunkt auf logischem Denken haben Verstärkungslernen (Reinforcement Learning, RL) als vielversprechende Methode zur Ausrichtung von Modellen auf überprüfbare Belohnungen hervorgehoben. Es bleibt jedoch umstritten, ob RL tatsächlich die Denkfähigkeiten eines Modells erweitert oder lediglich hoch bewertete Ausgaben verstärkt, die bereits latent in der Verteilung des Basismodells vorhanden sind, und ob eine kontinuierliche Steigerung der RL-Rechenleistung zuverlässig zu verbesserten Denkleistungen führt. In dieser Arbeit stellen wir vorherrschende Annahmen in Frage, indem wir zeigen, dass langfristiges RL-Training (ProRL) neuartige Denkstrategien freisetzen kann, die für Basismodelle selbst bei umfangreicher Stichprobenziehung unzugänglich sind. Wir stellen ProRL vor, eine neuartige Trainingsmethodik, die KL-Divergenz-Kontrolle, das Zurücksetzen von Referenzrichtlinien und eine vielfältige Aufgabensammlung integriert. Unsere empirische Analyse zeigt, dass RL-trainierte Modelle in einer Vielzahl von pass@k-Bewertungen konsistent besser abschneiden als Basismodelle, einschließlich Szenarien, in denen Basismodelle unabhängig von der Anzahl der Versuche vollständig versagen. Wir zeigen weiterhin, dass Verbesserungen der Denkgrenzen stark mit der Aufgabenkompetenz des Basismodells und der Trainingsdauer korrelieren, was darauf hindeutet, dass RL im Laufe der Zeit neue Regionen des Lösungsraums erkunden und besetzen kann. Diese Erkenntnisse bieten neue Einblicke in die Bedingungen, unter denen RL die Denkgrenzen von Sprachmodellen sinnvoll erweitert, und legen die Grundlage für zukünftige Arbeiten zu langfristigem RL für logisches Denken. Wir veröffentlichen Modellgewichte, um weitere Forschungen zu unterstützen:
https://huggingface.co/nvidia/Nemotron-Research-Reasoning-Qwen-1.5B
English
Recent advances in reasoning-centric language models have highlighted
reinforcement learning (RL) as a promising method for aligning models with
verifiable rewards. However, it remains contentious whether RL truly expands a
model's reasoning capabilities or merely amplifies high-reward outputs already
latent in the base model's distribution, and whether continually scaling up RL
compute reliably leads to improved reasoning performance. In this work, we
challenge prevailing assumptions by demonstrating that prolonged RL (ProRL)
training can uncover novel reasoning strategies that are inaccessible to base
models, even under extensive sampling. We introduce ProRL, a novel training
methodology that incorporates KL divergence control, reference policy
resetting, and a diverse suite of tasks. Our empirical analysis reveals that
RL-trained models consistently outperform base models across a wide range of
pass@k evaluations, including scenarios where base models fail entirely
regardless of the number of attempts. We further show that reasoning boundary
improvements correlates strongly with task competence of base model and
training duration, suggesting that RL can explore and populate new regions of
solution space over time. These findings offer new insights into the conditions
under which RL meaningfully expands reasoning boundaries in language models and
establish a foundation for future work on long-horizon RL for reasoning. We
release model weights to support further research:
https://huggingface.co/nvidia/Nemotron-Research-Reasoning-Qwen-1.5B