El arte de escalar el cómputo en el aprendizaje por refuerzo para modelos de lenguaje grandes

Resumen

El aprendizaje por refuerzo (RL, por sus siglas en inglés) se ha convertido en un elemento central para el entrenamiento de modelos de lenguaje grandes (LLMs, por sus siglas en inglés), sin embargo, el campo carece de metodologías predictivas de escalabilidad comparables a las establecidas para el preentrenamiento. A pesar del rápido aumento en los presupuestos de cómputo, no existe un entendimiento fundamentado sobre cómo evaluar mejoras algorítmicas para escalar el cómputo en RL. Presentamos el primer estudio sistemático a gran escala, que suma más de 400,000 horas de GPU, que define un marco fundamentado para analizar y predecir la escalabilidad de RL en LLMs. Ajustamos curvas sigmoidales de rendimiento-cómputo para el entrenamiento de RL y realizamos una amplia ablación de elecciones de diseño comunes para analizar sus efectos en el rendimiento asintótico y la eficiencia computacional. Observamos: (1) No todas las recetas producen un rendimiento asintótico similar, (2) Detalles como la agregación de pérdidas, normalización, currículo y algoritmos fuera de política modulan principalmente la eficiencia computacional sin alterar significativamente la asíntota, y (3) Las recetas estables y escalables siguen trayectorias de escalabilidad predecibles, permitiendo la extrapolación a partir de ejecuciones a menor escala. Combinando estas observaciones, proponemos una receta de mejores prácticas, ScaleRL, y demostramos su efectividad al escalar y predecir exitosamente el rendimiento de validación en una única ejecución de RL escalada hasta 100,000 horas de GPU. Nuestro trabajo proporciona tanto un marco científico para analizar la escalabilidad en RL como una receta práctica que acerca el entrenamiento de RL a la predictibilidad lograda durante mucho tiempo en el preentrenamiento.

English

Reinforcement learning (RL) has become central to training large language models (LLMs), yet the field lacks predictive scaling methodologies comparable to those established for pre-training. Despite rapidly rising compute budgets, there is no principled understanding of how to evaluate algorithmic improvements for scaling RL compute. We present the first large-scale systematic study, amounting to more than 400,000 GPU-hours, that defines a principled framework for analyzing and predicting RL scaling in LLMs. We fit sigmoidal compute-performance curves for RL training and ablate a wide range of common design choices to analyze their effects on asymptotic performance and compute efficiency. We observe: (1) Not all recipes yield similar asymptotic performance, (2) Details such as loss aggregation, normalization, curriculum, and off-policy algorithm primarily modulate compute efficiency without materially shifting the asymptote, and (3) Stable, scalable recipes follow predictable scaling trajectories, enabling extrapolation from smaller-scale runs. Combining these insights, we propose a best-practice recipe, ScaleRL, and demonstrate its effectiveness by successfully scaling and predicting validation performance on a single RL run scaled up to 100,000 GPU-hours. Our work provides both a scientific framework for analyzing scaling in RL and a practical recipe that brings RL training closer to the predictability long achieved in pre-training.

El arte de escalar el cómputo en el aprendizaje por refuerzo para modelos de lenguaje grandes

The Art of Scaling Reinforcement Learning Compute for LLMs

Resumen

Support