Искусство масштабирования вычислительных ресурсов для обучения с подкреплением в больших языковых моделях
The Art of Scaling Reinforcement Learning Compute for LLMs
October 15, 2025
Авторы: Devvrit Khatri, Lovish Madaan, Rishabh Tiwari, Rachit Bansal, Sai Surya Duvvuri, Manzil Zaheer, Inderjit S. Dhillon, David Brandfonbrener, Rishabh Agarwal
cs.AI
Аннотация
Обучение с подкреплением (RL) стало ключевым подходом для обучения больших языковых моделей (LLM), однако в этой области отсутствуют методики прогнозирования масштабирования, сопоставимые с теми, что разработаны для предварительного обучения. Несмотря на стремительно растущие вычислительные бюджеты, нет систематического понимания того, как оценивать улучшения алгоритмов для масштабирования вычислительных ресурсов в RL. Мы представляем первое крупномасштабное систематическое исследование, эквивалентное более чем 400 000 GPU-часов, которое определяет принципиальную основу для анализа и прогнозирования масштабирования RL в LLM. Мы аппроксимируем сигмовидные кривые зависимости производительности от вычислительных ресурсов для обучения RL и исследуем широкий спектр распространённых проектных решений, чтобы проанализировать их влияние на асимптотическую производительность и вычислительную эффективность. Мы наблюдаем: (1) Не все подходы обеспечивают схожую асимптотическую производительность, (2) Детали, такие как агрегация потерь, нормализация, учебный план и алгоритмы вне политики, в основном влияют на вычислительную эффективность, незначительно изменяя асимптоту, и (3) Стабильные и масштабируемые подходы следуют предсказуемым траекториям масштабирования, что позволяет экстраполировать результаты с меньших масштабов. Объединяя эти наблюдения, мы предлагаем оптимальный подход, ScaleRL, и демонстрируем его эффективность, успешно масштабируя и прогнозируя производительность на валидации в рамках одного запуска RL, масштабированного до 100 000 GPU-часов. Наша работа предоставляет как научную основу для анализа масштабирования в RL, так и практический подход, который приближает обучение RL к предсказуемости, давно достигнутой в предварительном обучении.
English
Reinforcement learning (RL) has become central to training large language
models (LLMs), yet the field lacks predictive scaling methodologies comparable
to those established for pre-training. Despite rapidly rising compute budgets,
there is no principled understanding of how to evaluate algorithmic
improvements for scaling RL compute. We present the first large-scale
systematic study, amounting to more than 400,000 GPU-hours, that defines a
principled framework for analyzing and predicting RL scaling in LLMs. We fit
sigmoidal compute-performance curves for RL training and ablate a wide range of
common design choices to analyze their effects on asymptotic performance and
compute efficiency. We observe: (1) Not all recipes yield similar asymptotic
performance, (2) Details such as loss aggregation, normalization, curriculum,
and off-policy algorithm primarily modulate compute efficiency without
materially shifting the asymptote, and (3) Stable, scalable recipes follow
predictable scaling trajectories, enabling extrapolation from smaller-scale
runs. Combining these insights, we propose a best-practice recipe, ScaleRL, and
demonstrate its effectiveness by successfully scaling and predicting validation
performance on a single RL run scaled up to 100,000 GPU-hours. Our work
provides both a scientific framework for analyzing scaling in RL and a
practical recipe that brings RL training closer to the predictability long
achieved in pre-training.