大規模言語モデルのための強化学習計算のスケーリング技術
The Art of Scaling Reinforcement Learning Compute for LLMs
October 15, 2025
著者: Devvrit Khatri, Lovish Madaan, Rishabh Tiwari, Rachit Bansal, Sai Surya Duvvuri, Manzil Zaheer, Inderjit S. Dhillon, David Brandfonbrener, Rishabh Agarwal
cs.AI
要旨
強化学習(Reinforcement Learning, RL)は大規模言語モデル(Large Language Models, LLMs)の訓練において中心的な役割を果たすようになったが、この分野には事前学習で確立されたような予測可能なスケーリング手法が欠如している。計算リソースの予算が急速に増加しているにもかかわらず、RLの計算リソースをスケーリングするためのアルゴリズム的改善を評価するための原則的な理解が存在しない。本研究では、40万GPU時間以上に及ぶ初の大規模系統的研究を実施し、LLMにおけるRLスケーリングを分析・予測するための原則的なフレームワークを定義する。RL訓練におけるシグモイド型の計算性能曲線をフィッティングし、広範な一般的な設計選択をアブレーションすることで、それらが漸近的性能と計算効率に及ぼす影響を分析した。その結果、(1) すべてのレシピが同様の漸近的性能をもたらすわけではないこと、(2) 損失集計、正規化、カリキュラム、オフポリシーアルゴリズムなどの詳細は、主に計算効率を調整し、漸近線を大きく変化させないこと、(3) 安定したスケーラブルなレシピは予測可能なスケーリング軌跡に従い、小規模な実行からの外挿を可能にすることが観察された。これらの知見を組み合わせ、ベストプラクティスレシピであるScaleRLを提案し、10万GPU時間にスケールアップした単一のRL実行において検証性能を成功裏にスケーリングおよび予測することでその有効性を実証した。本研究は、RLにおけるスケーリングを分析するための科学的フレームワークと、事前学習で長らく達成されてきた予測可能性にRL訓練を近づける実践的なレシピを提供する。
English
Reinforcement learning (RL) has become central to training large language
models (LLMs), yet the field lacks predictive scaling methodologies comparable
to those established for pre-training. Despite rapidly rising compute budgets,
there is no principled understanding of how to evaluate algorithmic
improvements for scaling RL compute. We present the first large-scale
systematic study, amounting to more than 400,000 GPU-hours, that defines a
principled framework for analyzing and predicting RL scaling in LLMs. We fit
sigmoidal compute-performance curves for RL training and ablate a wide range of
common design choices to analyze their effects on asymptotic performance and
compute efficiency. We observe: (1) Not all recipes yield similar asymptotic
performance, (2) Details such as loss aggregation, normalization, curriculum,
and off-policy algorithm primarily modulate compute efficiency without
materially shifting the asymptote, and (3) Stable, scalable recipes follow
predictable scaling trajectories, enabling extrapolation from smaller-scale
runs. Combining these insights, we propose a best-practice recipe, ScaleRL, and
demonstrate its effectiveness by successfully scaling and predicting validation
performance on a single RL run scaled up to 100,000 GPU-hours. Our work
provides both a scientific framework for analyzing scaling in RL and a
practical recipe that brings RL training closer to the predictability long
achieved in pre-training.