El arte de escalar el cómputo en el aprendizaje por refuerzo para modelos de lenguaje grandes
The Art of Scaling Reinforcement Learning Compute for LLMs
October 15, 2025
Autores: Devvrit Khatri, Lovish Madaan, Rishabh Tiwari, Rachit Bansal, Sai Surya Duvvuri, Manzil Zaheer, Inderjit S. Dhillon, David Brandfonbrener, Rishabh Agarwal
cs.AI
Resumen
El aprendizaje por refuerzo (RL, por sus siglas en inglés) se ha convertido en un elemento central para el entrenamiento de modelos de lenguaje grandes (LLMs, por sus siglas en inglés), sin embargo, el campo carece de metodologías predictivas de escalabilidad comparables a las establecidas para el preentrenamiento. A pesar del rápido aumento en los presupuestos de cómputo, no existe un entendimiento fundamentado sobre cómo evaluar mejoras algorítmicas para escalar el cómputo en RL. Presentamos el primer estudio sistemático a gran escala, que suma más de 400,000 horas de GPU, que define un marco fundamentado para analizar y predecir la escalabilidad de RL en LLMs. Ajustamos curvas sigmoidales de rendimiento-cómputo para el entrenamiento de RL y realizamos una amplia ablación de elecciones de diseño comunes para analizar sus efectos en el rendimiento asintótico y la eficiencia computacional. Observamos: (1) No todas las recetas producen un rendimiento asintótico similar, (2) Detalles como la agregación de pérdidas, normalización, currículo y algoritmos fuera de política modulan principalmente la eficiencia computacional sin alterar significativamente la asíntota, y (3) Las recetas estables y escalables siguen trayectorias de escalabilidad predecibles, permitiendo la extrapolación a partir de ejecuciones a menor escala. Combinando estas observaciones, proponemos una receta de mejores prácticas, ScaleRL, y demostramos su efectividad al escalar y predecir exitosamente el rendimiento de validación en una única ejecución de RL escalada hasta 100,000 horas de GPU. Nuestro trabajo proporciona tanto un marco científico para analizar la escalabilidad en RL como una receta práctica que acerca el entrenamiento de RL a la predictibilidad lograda durante mucho tiempo en el preentrenamiento.
English
Reinforcement learning (RL) has become central to training large language
models (LLMs), yet the field lacks predictive scaling methodologies comparable
to those established for pre-training. Despite rapidly rising compute budgets,
there is no principled understanding of how to evaluate algorithmic
improvements for scaling RL compute. We present the first large-scale
systematic study, amounting to more than 400,000 GPU-hours, that defines a
principled framework for analyzing and predicting RL scaling in LLMs. We fit
sigmoidal compute-performance curves for RL training and ablate a wide range of
common design choices to analyze their effects on asymptotic performance and
compute efficiency. We observe: (1) Not all recipes yield similar asymptotic
performance, (2) Details such as loss aggregation, normalization, curriculum,
and off-policy algorithm primarily modulate compute efficiency without
materially shifting the asymptote, and (3) Stable, scalable recipes follow
predictable scaling trajectories, enabling extrapolation from smaller-scale
runs. Combining these insights, we propose a best-practice recipe, ScaleRL, and
demonstrate its effectiveness by successfully scaling and predicting validation
performance on a single RL run scaled up to 100,000 GPU-hours. Our work
provides both a scientific framework for analyzing scaling in RL and a
practical recipe that brings RL training closer to the predictability long
achieved in pre-training.