ProRL: Langdurige Reinforcement Learning Verbreedt de Grenzen van Redeneren in Grote Taalmodellen
ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models
May 30, 2025
Auteurs: Mingjie Liu, Shizhe Diao, Ximing Lu, Jian Hu, Xin Dong, Yejin Choi, Jan Kautz, Yi Dong
cs.AI
Samenvatting
Recente ontwikkelingen in redeneringsgerichte taalmodellen hebben
versterkend leren (RL) benadrukt als een veelbelovende methode om modellen
af te stemmen op verifieerbare beloningen. Het blijft echter betwistbaar of RL
daadwerkelijk de redeneervaardigheden van een model uitbreidt of slechts
hoogbeloonde uitvoeringen versterkt die al latent aanwezig zijn in de
verdeling van het basismodel, en of het voortdurend opschalen van RL-rekenkracht
betrouwbaar leidt tot verbeterde redeneerprestaties. In dit werk dagen we
heersende aannames uit door aan te tonen dat langdurige RL-training (ProRL)
nieuwe redeneerstrategieën kan ontdekken die ontoegankelijk zijn voor
basismodellen, zelfs bij uitgebreide steekproefname. We introduceren ProRL,
een nieuwe trainingsmethodologie die KL-divergentiecontrole, resetten van
referentiebeleid en een diverse reeks taken omvat. Onze empirische analyse
laat zien dat RL-getrainde modellen consistent beter presteren dan
basismodellen in een breed scala aan pass@k-evaluaties, inclusief scenario's
waarin basismodellen volledig falen, ongeacht het aantal pogingen. We tonen
verder aan dat verbeteringen in de redeneergrenzen sterk correleren met de
taakcompetentie van het basismodel en de trainingsduur, wat suggereert dat RL
na verloop van tijd nieuwe regio's van de oplossingsruimte kan verkennen en
bevolken. Deze bevindingen bieden nieuwe inzichten in de omstandigheden
waaronder RL op zinvolle wijze de redeneergrenzen in taalmodellen uitbreidt
en leggen een basis voor toekomstig werk aan langetermijn-RL voor redeneren.
We geven modelgewichten vrij ter ondersteuning van verder onderzoek:
https://huggingface.co/nvidia/Nemotron-Research-Reasoning-Qwen-1.5B
English
Recent advances in reasoning-centric language models have highlighted
reinforcement learning (RL) as a promising method for aligning models with
verifiable rewards. However, it remains contentious whether RL truly expands a
model's reasoning capabilities or merely amplifies high-reward outputs already
latent in the base model's distribution, and whether continually scaling up RL
compute reliably leads to improved reasoning performance. In this work, we
challenge prevailing assumptions by demonstrating that prolonged RL (ProRL)
training can uncover novel reasoning strategies that are inaccessible to base
models, even under extensive sampling. We introduce ProRL, a novel training
methodology that incorporates KL divergence control, reference policy
resetting, and a diverse suite of tasks. Our empirical analysis reveals that
RL-trained models consistently outperform base models across a wide range of
pass@k evaluations, including scenarios where base models fail entirely
regardless of the number of attempts. We further show that reasoning boundary
improvements correlates strongly with task competence of base model and
training duration, suggesting that RL can explore and populate new regions of
solution space over time. These findings offer new insights into the conditions
under which RL meaningfully expands reasoning boundaries in language models and
establish a foundation for future work on long-horizon RL for reasoning. We
release model weights to support further research:
https://huggingface.co/nvidia/Nemotron-Research-Reasoning-Qwen-1.5B