ProRL: Aprendizado por Reforço Prolongado Amplia as Fronteiras do Raciocínio em Modelos de Linguagem de Grande Escala
ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models
May 30, 2025
Autores: Mingjie Liu, Shizhe Diao, Ximing Lu, Jian Hu, Xin Dong, Yejin Choi, Jan Kautz, Yi Dong
cs.AI
Resumo
Avanços recentes em modelos de linguagem centrados em raciocínio destacaram o aprendizado por reforço (RL) como um método promissor para alinhar modelos com recompensas verificáveis. No entanto, permanece controverso se o RL realmente expande as capacidades de raciocínio de um modelo ou apenas amplia saídas de alta recompensa já latentes na distribuição do modelo base, e se o aumento contínuo do poder computacional de RL leva de forma confiável a melhorias no desempenho de raciocínio. Neste trabalho, desafiamos suposições predominantes ao demonstrar que o treinamento prolongado de RL (ProRL) pode descobrir novas estratégias de raciocínio que são inacessíveis aos modelos base, mesmo sob amostragem extensiva. Introduzimos o ProRL, uma nova metodologia de treinamento que incorpora controle de divergência KL, reinicialização de políticas de referência e um conjunto diversificado de tarefas. Nossa análise empírica revela que modelos treinados com RL superam consistentemente os modelos base em uma ampla gama de avaliações pass@k, incluindo cenários em que os modelos base falham completamente, independentemente do número de tentativas. Mostramos ainda que as melhorias nos limites de raciocínio estão fortemente correlacionadas com a competência da tarefa do modelo base e a duração do treinamento, sugerindo que o RL pode explorar e preencher novas regiões do espaço de soluções ao longo do tempo. Essas descobertas oferecem novos insights sobre as condições em que o RL expande significativamente os limites de raciocínio em modelos de linguagem e estabelecem uma base para trabalhos futuros sobre RL de longo horizonte para raciocínio. Liberamos os pesos do modelo para apoiar pesquisas adicionais: https://huggingface.co/nvidia/Nemotron-Research-Reasoning-Qwen-1.5B
English
Recent advances in reasoning-centric language models have highlighted
reinforcement learning (RL) as a promising method for aligning models with
verifiable rewards. However, it remains contentious whether RL truly expands a
model's reasoning capabilities or merely amplifies high-reward outputs already
latent in the base model's distribution, and whether continually scaling up RL
compute reliably leads to improved reasoning performance. In this work, we
challenge prevailing assumptions by demonstrating that prolonged RL (ProRL)
training can uncover novel reasoning strategies that are inaccessible to base
models, even under extensive sampling. We introduce ProRL, a novel training
methodology that incorporates KL divergence control, reference policy
resetting, and a diverse suite of tasks. Our empirical analysis reveals that
RL-trained models consistently outperform base models across a wide range of
pass@k evaluations, including scenarios where base models fail entirely
regardless of the number of attempts. We further show that reasoning boundary
improvements correlates strongly with task competence of base model and
training duration, suggesting that RL can explore and populate new regions of
solution space over time. These findings offer new insights into the conditions
under which RL meaningfully expands reasoning boundaries in language models and
establish a foundation for future work on long-horizon RL for reasoning. We
release model weights to support further research:
https://huggingface.co/nvidia/Nemotron-Research-Reasoning-Qwen-1.5B