ChatPaper.aiChatPaper

Искусство масштабирования вычислительных ресурсов для обучения с подкреплением в больших языковых моделях

The Art of Scaling Reinforcement Learning Compute for LLMs

October 15, 2025
Авторы: Devvrit Khatri, Lovish Madaan, Rishabh Tiwari, Rachit Bansal, Sai Surya Duvvuri, Manzil Zaheer, Inderjit S. Dhillon, David Brandfonbrener, Rishabh Agarwal
cs.AI

Аннотация

Обучение с подкреплением (RL) стало ключевым подходом для обучения больших языковых моделей (LLM), однако в этой области отсутствуют методики прогнозирования масштабирования, сопоставимые с теми, что разработаны для предварительного обучения. Несмотря на стремительно растущие вычислительные бюджеты, нет систематического понимания того, как оценивать улучшения алгоритмов для масштабирования вычислительных ресурсов в RL. Мы представляем первое крупномасштабное систематическое исследование, эквивалентное более чем 400 000 GPU-часов, которое определяет принципиальную основу для анализа и прогнозирования масштабирования RL в LLM. Мы аппроксимируем сигмовидные кривые зависимости производительности от вычислительных ресурсов для обучения RL и исследуем широкий спектр распространённых проектных решений, чтобы проанализировать их влияние на асимптотическую производительность и вычислительную эффективность. Мы наблюдаем: (1) Не все подходы обеспечивают схожую асимптотическую производительность, (2) Детали, такие как агрегация потерь, нормализация, учебный план и алгоритмы вне политики, в основном влияют на вычислительную эффективность, незначительно изменяя асимптоту, и (3) Стабильные и масштабируемые подходы следуют предсказуемым траекториям масштабирования, что позволяет экстраполировать результаты с меньших масштабов. Объединяя эти наблюдения, мы предлагаем оптимальный подход, ScaleRL, и демонстрируем его эффективность, успешно масштабируя и прогнозируя производительность на валидации в рамках одного запуска RL, масштабированного до 100 000 GPU-часов. Наша работа предоставляет как научную основу для анализа масштабирования в RL, так и практический подход, который приближает обучение RL к предсказуемости, давно достигнутой в предварительном обучении.
English
Reinforcement learning (RL) has become central to training large language models (LLMs), yet the field lacks predictive scaling methodologies comparable to those established for pre-training. Despite rapidly rising compute budgets, there is no principled understanding of how to evaluate algorithmic improvements for scaling RL compute. We present the first large-scale systematic study, amounting to more than 400,000 GPU-hours, that defines a principled framework for analyzing and predicting RL scaling in LLMs. We fit sigmoidal compute-performance curves for RL training and ablate a wide range of common design choices to analyze their effects on asymptotic performance and compute efficiency. We observe: (1) Not all recipes yield similar asymptotic performance, (2) Details such as loss aggregation, normalization, curriculum, and off-policy algorithm primarily modulate compute efficiency without materially shifting the asymptote, and (3) Stable, scalable recipes follow predictable scaling trajectories, enabling extrapolation from smaller-scale runs. Combining these insights, we propose a best-practice recipe, ScaleRL, and demonstrate its effectiveness by successfully scaling and predicting validation performance on a single RL run scaled up to 100,000 GPU-hours. Our work provides both a scientific framework for analyzing scaling in RL and a practical recipe that brings RL training closer to the predictability long achieved in pre-training.
PDF272October 16, 2025