De Kunst van het Schalen van Rekenkracht voor Reinforcement Learning bij LLM's
The Art of Scaling Reinforcement Learning Compute for LLMs
October 15, 2025
Auteurs: Devvrit Khatri, Lovish Madaan, Rishabh Tiwari, Rachit Bansal, Sai Surya Duvvuri, Manzil Zaheer, Inderjit S. Dhillon, David Brandfonbrener, Rishabh Agarwal
cs.AI
Samenvatting
Reinforcement learning (RL) is centraal geworden bij het trainen van grote taalmmodellen (LLMs), maar het veld mist voorspellende schaalbaarheidsmethodologieën die vergelijkbaar zijn met die voor pre-training. Ondanks snel stijgende rekenbudgetten is er geen principieel begrip van hoe algoritmische verbeteringen voor het schalen van RL-rekenkracht moeten worden geëvalueerd. Wij presenteren de eerste grootschalige systematische studie, goed voor meer dan 400.000 GPU-uren, die een principieel raamwerk definieert voor het analyseren en voorspellen van RL-schaling in LLMs. We passen sigmoïdale rekenkracht-prestatiecurven toe voor RL-training en onderzoeken een breed scala aan veelvoorkomende ontwerpkeuzes om hun effecten op asymptotische prestaties en rekenkrachtefficiëntie te analyseren. We observeren: (1) Niet alle methoden leveren vergelijkbare asymptotische prestaties op, (2) Details zoals verliesaggregatie, normalisatie, curriculum en off-policy algoritmen beïnvloeden vooral de rekenkrachtefficiëntie zonder de asymptoot significant te verschuiven, en (3) Stabiele, schaalbare methoden volgen voorspelbare schalingstrajecten, waardoor extrapolatie vanuit kleinschalige runs mogelijk is. Door deze inzichten te combineren, stellen we een best-practice methode voor, ScaleRL, en demonstreren we de effectiviteit ervan door succesvol de validatieprestaties te schalen en voorspellen in een enkele RL-run opgeschaald tot 100.000 GPU-uren. Ons werk biedt zowel een wetenschappelijk raamwerk voor het analyseren van schaling in RL als een praktische methode die RL-training dichter brengt bij de voorspelbaarheid die al lang wordt bereikt in pre-training.
English
Reinforcement learning (RL) has become central to training large language
models (LLMs), yet the field lacks predictive scaling methodologies comparable
to those established for pre-training. Despite rapidly rising compute budgets,
there is no principled understanding of how to evaluate algorithmic
improvements for scaling RL compute. We present the first large-scale
systematic study, amounting to more than 400,000 GPU-hours, that defines a
principled framework for analyzing and predicting RL scaling in LLMs. We fit
sigmoidal compute-performance curves for RL training and ablate a wide range of
common design choices to analyze their effects on asymptotic performance and
compute efficiency. We observe: (1) Not all recipes yield similar asymptotic
performance, (2) Details such as loss aggregation, normalization, curriculum,
and off-policy algorithm primarily modulate compute efficiency without
materially shifting the asymptote, and (3) Stable, scalable recipes follow
predictable scaling trajectories, enabling extrapolation from smaller-scale
runs. Combining these insights, we propose a best-practice recipe, ScaleRL, and
demonstrate its effectiveness by successfully scaling and predicting validation
performance on a single RL run scaled up to 100,000 GPU-hours. Our work
provides both a scientific framework for analyzing scaling in RL and a
practical recipe that brings RL training closer to the predictability long
achieved in pre-training.