ChatPaper.aiChatPaper

ProRL: El Aprendizaje por Refuerzo Prolongado Amplía los Límites del Razonamiento en Modelos de Lenguaje a Gran Escala

ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models

May 30, 2025
Autores: Mingjie Liu, Shizhe Diao, Ximing Lu, Jian Hu, Xin Dong, Yejin Choi, Jan Kautz, Yi Dong
cs.AI

Resumen

Los recientes avances en modelos de lenguaje centrados en razonamiento han destacado el aprendizaje por refuerzo (RL, por sus siglas en inglés) como un método prometedor para alinear modelos con recompensas verificables. Sin embargo, sigue siendo controvertido si el RL realmente expande las capacidades de razonamiento de un modelo o simplemente amplifica las salidas de alta recompensa que ya están latentes en la distribución del modelo base, y si el escalamiento continuo del cómputo de RL conduce de manera confiable a un mejor desempeño en el razonamiento. En este trabajo, desafiamos las suposiciones predominantes al demostrar que el entrenamiento prolongado de RL (ProRL) puede descubrir estrategias de razonamiento novedosas que son inaccesibles para los modelos base, incluso bajo un muestreo extensivo. Introducimos ProRL, una metodología de entrenamiento novedosa que incorpora control de divergencia KL, reinicio de políticas de referencia y un conjunto diverso de tareas. Nuestro análisis empírico revela que los modelos entrenados con RL superan consistentemente a los modelos base en una amplia gama de evaluaciones pass@k, incluyendo escenarios en los que los modelos base fallan por completo, independientemente del número de intentos. Además, mostramos que las mejoras en los límites de razonamiento se correlacionan fuertemente con la competencia en tareas del modelo base y la duración del entrenamiento, lo que sugiere que el RL puede explorar y poblar nuevas regiones del espacio de soluciones con el tiempo. Estos hallazgos ofrecen nuevas perspectivas sobre las condiciones bajo las cuales el RL expande significativamente los límites de razonamiento en los modelos de lenguaje y establecen una base para trabajos futuros sobre RL de horizonte largo para el razonamiento. Liberamos los pesos del modelo para apoyar investigaciones adicionales: https://huggingface.co/nvidia/Nemotron-Research-Reasoning-Qwen-1.5B.
English
Recent advances in reasoning-centric language models have highlighted reinforcement learning (RL) as a promising method for aligning models with verifiable rewards. However, it remains contentious whether RL truly expands a model's reasoning capabilities or merely amplifies high-reward outputs already latent in the base model's distribution, and whether continually scaling up RL compute reliably leads to improved reasoning performance. In this work, we challenge prevailing assumptions by demonstrating that prolonged RL (ProRL) training can uncover novel reasoning strategies that are inaccessible to base models, even under extensive sampling. We introduce ProRL, a novel training methodology that incorporates KL divergence control, reference policy resetting, and a diverse suite of tasks. Our empirical analysis reveals that RL-trained models consistently outperform base models across a wide range of pass@k evaluations, including scenarios where base models fail entirely regardless of the number of attempts. We further show that reasoning boundary improvements correlates strongly with task competence of base model and training duration, suggesting that RL can explore and populate new regions of solution space over time. These findings offer new insights into the conditions under which RL meaningfully expands reasoning boundaries in language models and establish a foundation for future work on long-horizon RL for reasoning. We release model weights to support further research: https://huggingface.co/nvidia/Nemotron-Research-Reasoning-Qwen-1.5B
PDF1123June 2, 2025