L'Art de la Mise à l'Échelle des Ressources de Calcul pour l'Apprentissage par Renforcement dans les Modèles de Langage de Grande Taille
The Art of Scaling Reinforcement Learning Compute for LLMs
October 15, 2025
papers.authors: Devvrit Khatri, Lovish Madaan, Rishabh Tiwari, Rachit Bansal, Sai Surya Duvvuri, Manzil Zaheer, Inderjit S. Dhillon, David Brandfonbrener, Rishabh Agarwal
cs.AI
papers.abstract
L'apprentissage par renforcement (RL) est devenu central pour l'entraînement des grands modèles de langage (LLM), mais le domaine manque de méthodologies de prédiction d'échelle comparables à celles établies pour le pré-entraînement. Malgré l'augmentation rapide des budgets de calcul, il n'existe pas de compréhension systématique de la manière d'évaluer les améliorations algorithmiques pour l'échelle de calcul en RL. Nous présentons la première étude systématique à grande échelle, représentant plus de 400 000 heures GPU, qui définit un cadre méthodologique pour analyser et prédire l'échelle de RL dans les LLM. Nous ajustons des courbes sigmoïdes de performance en fonction du calcul pour l'entraînement en RL et éliminons un large éventail de choix de conception courants pour analyser leurs effets sur la performance asymptotique et l'efficacité de calcul. Nous observons : (1) Toutes les recettes ne produisent pas une performance asymptotique similaire, (2) Les détails tels que l'agrégation des pertes, la normalisation, le curriculum et les algorithmes hors politique modulent principalement l'efficacité de calcul sans modifier significativement l'asymptote, et (3) Les recettes stables et évolutives suivent des trajectoires d'échelle prévisibles, permettant l'extrapolation à partir d'exécutions à plus petite échelle. En combinant ces observations, nous proposons une recette de meilleures pratiques, ScaleRL, et démontrons son efficacité en prédisant avec succès la performance de validation sur une seule exécution de RL étendue à 100 000 heures GPU. Notre travail fournit à la fois un cadre scientifique pour analyser l'échelle en RL et une recette pratique qui rapproche l'entraînement en RL de la prévisibilité longtemps atteinte dans le pré-entraînement.
English
Reinforcement learning (RL) has become central to training large language
models (LLMs), yet the field lacks predictive scaling methodologies comparable
to those established for pre-training. Despite rapidly rising compute budgets,
there is no principled understanding of how to evaluate algorithmic
improvements for scaling RL compute. We present the first large-scale
systematic study, amounting to more than 400,000 GPU-hours, that defines a
principled framework for analyzing and predicting RL scaling in LLMs. We fit
sigmoidal compute-performance curves for RL training and ablate a wide range of
common design choices to analyze their effects on asymptotic performance and
compute efficiency. We observe: (1) Not all recipes yield similar asymptotic
performance, (2) Details such as loss aggregation, normalization, curriculum,
and off-policy algorithm primarily modulate compute efficiency without
materially shifting the asymptote, and (3) Stable, scalable recipes follow
predictable scaling trajectories, enabling extrapolation from smaller-scale
runs. Combining these insights, we propose a best-practice recipe, ScaleRL, and
demonstrate its effectiveness by successfully scaling and predicting validation
performance on a single RL run scaled up to 100,000 GPU-hours. Our work
provides both a scientific framework for analyzing scaling in RL and a
practical recipe that brings RL training closer to the predictability long
achieved in pre-training.