L'Art de la Mise à l'Échelle des Ressources de Calcul pour l'Apprentissage par Renforcement dans les Modèles de Langage de Grande Taille

papers.abstract

L'apprentissage par renforcement (RL) est devenu central pour l'entraînement des grands modèles de langage (LLM), mais le domaine manque de méthodologies de prédiction d'échelle comparables à celles établies pour le pré-entraînement. Malgré l'augmentation rapide des budgets de calcul, il n'existe pas de compréhension systématique de la manière d'évaluer les améliorations algorithmiques pour l'échelle de calcul en RL. Nous présentons la première étude systématique à grande échelle, représentant plus de 400 000 heures GPU, qui définit un cadre méthodologique pour analyser et prédire l'échelle de RL dans les LLM. Nous ajustons des courbes sigmoïdes de performance en fonction du calcul pour l'entraînement en RL et éliminons un large éventail de choix de conception courants pour analyser leurs effets sur la performance asymptotique et l'efficacité de calcul. Nous observons : (1) Toutes les recettes ne produisent pas une performance asymptotique similaire, (2) Les détails tels que l'agrégation des pertes, la normalisation, le curriculum et les algorithmes hors politique modulent principalement l'efficacité de calcul sans modifier significativement l'asymptote, et (3) Les recettes stables et évolutives suivent des trajectoires d'échelle prévisibles, permettant l'extrapolation à partir d'exécutions à plus petite échelle. En combinant ces observations, nous proposons une recette de meilleures pratiques, ScaleRL, et démontrons son efficacité en prédisant avec succès la performance de validation sur une seule exécution de RL étendue à 100 000 heures GPU. Notre travail fournit à la fois un cadre scientifique pour analyser l'échelle en RL et une recette pratique qui rapproche l'entraînement en RL de la prévisibilité longtemps atteinte dans le pré-entraînement.

English

Reinforcement learning (RL) has become central to training large language models (LLMs), yet the field lacks predictive scaling methodologies comparable to those established for pre-training. Despite rapidly rising compute budgets, there is no principled understanding of how to evaluate algorithmic improvements for scaling RL compute. We present the first large-scale systematic study, amounting to more than 400,000 GPU-hours, that defines a principled framework for analyzing and predicting RL scaling in LLMs. We fit sigmoidal compute-performance curves for RL training and ablate a wide range of common design choices to analyze their effects on asymptotic performance and compute efficiency. We observe: (1) Not all recipes yield similar asymptotic performance, (2) Details such as loss aggregation, normalization, curriculum, and off-policy algorithm primarily modulate compute efficiency without materially shifting the asymptote, and (3) Stable, scalable recipes follow predictable scaling trajectories, enabling extrapolation from smaller-scale runs. Combining these insights, we propose a best-practice recipe, ScaleRL, and demonstrate its effectiveness by successfully scaling and predicting validation performance on a single RL run scaled up to 100,000 GPU-hours. Our work provides both a scientific framework for analyzing scaling in RL and a practical recipe that brings RL training closer to the predictability long achieved in pre-training.

L'Art de la Mise à l'Échelle des Ressources de Calcul pour l'Apprentissage par Renforcement dans les Modèles de Langage de Grande Taille

The Art of Scaling Reinforcement Learning Compute for LLMs

papers.abstract

Support