Die Kunst der Skalierung von Rechenressourcen für Reinforcement Learning bei LLMs

papers.abstract

Reinforcement Learning (RL) hat eine zentrale Rolle beim Training großer Sprachmodelle (LLMs) eingenommen, doch es mangelt an prädiktiven Skalierungsmethoden, die mit denen für das Pre-Training vergleichbar sind. Trotz rapide steigender Rechenbudgets gibt es kein fundiertes Verständnis dafür, wie algorithmische Verbesserungen für die Skalierung von RL-Rechenleistung bewertet werden können. Wir präsentieren die erste groß angelegte systematische Studie, die mehr als 400.000 GPU-Stunden umfasst und einen prinzipiellen Rahmen zur Analyse und Vorhersage der RL-Skalierung in LLMs definiert. Wir passen sigmoidale Rechenleistungs-Kurven für das RL-Training an und untersuchen eine breite Palette gängiger Designentscheidungen, um deren Auswirkungen auf die asymptotische Leistung und die Recheneffizienz zu analysieren. Wir beobachten: (1) Nicht alle Ansätze führen zu ähnlicher asymptotischer Leistung, (2) Details wie die Aggregation von Verlusten, Normalisierung, Curriculum und Off-Policy-Algorithmen beeinflussen hauptsächlich die Recheneffizienz, ohne die Asymptote wesentlich zu verschieben, und (3) Stabile, skalierbare Ansätze folgen vorhersagbaren Skalierungspfaden, was eine Extrapolation aus kleineren Durchläufen ermöglicht. Basierend auf diesen Erkenntnissen schlagen wir einen Best-Practice-Ansatz, ScaleRL, vor und demonstrieren dessen Wirksamkeit durch die erfolgreiche Skalierung und Vorhersage der Validierungsleistung in einem einzigen RL-Durchlauf, der auf 100.000 GPU-Stunden skaliert wurde. Unsere Arbeit bietet sowohl einen wissenschaftlichen Rahmen zur Analyse der Skalierung in RL als auch einen praktischen Ansatz, der das RL-Training näher an die Vorhersagbarkeit heranführt, die im Pre-Training seit langem erreicht wird.

English

Reinforcement learning (RL) has become central to training large language models (LLMs), yet the field lacks predictive scaling methodologies comparable to those established for pre-training. Despite rapidly rising compute budgets, there is no principled understanding of how to evaluate algorithmic improvements for scaling RL compute. We present the first large-scale systematic study, amounting to more than 400,000 GPU-hours, that defines a principled framework for analyzing and predicting RL scaling in LLMs. We fit sigmoidal compute-performance curves for RL training and ablate a wide range of common design choices to analyze their effects on asymptotic performance and compute efficiency. We observe: (1) Not all recipes yield similar asymptotic performance, (2) Details such as loss aggregation, normalization, curriculum, and off-policy algorithm primarily modulate compute efficiency without materially shifting the asymptote, and (3) Stable, scalable recipes follow predictable scaling trajectories, enabling extrapolation from smaller-scale runs. Combining these insights, we propose a best-practice recipe, ScaleRL, and demonstrate its effectiveness by successfully scaling and predicting validation performance on a single RL run scaled up to 100,000 GPU-hours. Our work provides both a scientific framework for analyzing scaling in RL and a practical recipe that brings RL training closer to the predictability long achieved in pre-training.

Die Kunst der Skalierung von Rechenressourcen für Reinforcement Learning bei LLMs

The Art of Scaling Reinforcement Learning Compute for LLMs

papers.abstract

Support