ChatPaper.aiChatPaper

ProRL : L'apprentissage par renforcement prolongé repousse les limites du raisonnement dans les grands modèles de langage

ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models

May 30, 2025
Auteurs: Mingjie Liu, Shizhe Diao, Ximing Lu, Jian Hu, Xin Dong, Yejin Choi, Jan Kautz, Yi Dong
cs.AI

Résumé

Les récents progrès dans les modèles de langage centrés sur le raisonnement ont mis en lumière l'apprentissage par renforcement (RL) comme une méthode prometteuse pour aligner les modèles avec des récompenses vérifiables. Cependant, il reste controversé de savoir si le RL étend véritablement les capacités de raisonnement d'un modèle ou s'il amplifie simplement les sorties à forte récompense déjà latentes dans la distribution du modèle de base, et si l'augmentation continue des ressources de calcul en RL conduit de manière fiable à une amélioration des performances de raisonnement. Dans ce travail, nous remettons en question les hypothèses dominantes en démontrant qu'un entraînement prolongé en RL (ProRL) peut révéler de nouvelles stratégies de raisonnement inaccessibles aux modèles de base, même sous un échantillonnage extensif. Nous introduisons ProRL, une nouvelle méthodologie d'entraînement qui intègre le contrôle de la divergence KL, la réinitialisation de la politique de référence et une diversité de tâches. Notre analyse empirique révèle que les modèles entraînés par RL surpassent systématiquement les modèles de base dans une large gamme d'évaluations pass@k, y compris dans des scénarios où les modèles de base échouent complètement, quel que soit le nombre d'essais. Nous montrons en outre que les améliorations des limites de raisonnement sont fortement corrélées à la compétence de la tâche du modèle de base et à la durée de l'entraînement, suggérant que le RL peut explorer et peupler de nouvelles régions de l'espace des solutions au fil du temps. Ces résultats offrent de nouvelles perspectives sur les conditions dans lesquelles le RL élargit de manière significative les limites de raisonnement dans les modèles de langage et établissent une base pour les travaux futurs sur le RL à long terme pour le raisonnement. Nous publions les poids des modèles pour soutenir la recherche future : https://huggingface.co/nvidia/Nemotron-Research-Reasoning-Qwen-1.5B
English
Recent advances in reasoning-centric language models have highlighted reinforcement learning (RL) as a promising method for aligning models with verifiable rewards. However, it remains contentious whether RL truly expands a model's reasoning capabilities or merely amplifies high-reward outputs already latent in the base model's distribution, and whether continually scaling up RL compute reliably leads to improved reasoning performance. In this work, we challenge prevailing assumptions by demonstrating that prolonged RL (ProRL) training can uncover novel reasoning strategies that are inaccessible to base models, even under extensive sampling. We introduce ProRL, a novel training methodology that incorporates KL divergence control, reference policy resetting, and a diverse suite of tasks. Our empirical analysis reveals that RL-trained models consistently outperform base models across a wide range of pass@k evaluations, including scenarios where base models fail entirely regardless of the number of attempts. We further show that reasoning boundary improvements correlates strongly with task competence of base model and training duration, suggesting that RL can explore and populate new regions of solution space over time. These findings offer new insights into the conditions under which RL meaningfully expands reasoning boundaries in language models and establish a foundation for future work on long-horizon RL for reasoning. We release model weights to support further research: https://huggingface.co/nvidia/Nemotron-Research-Reasoning-Qwen-1.5B
PDF1133June 2, 2025