LLM을 위한 강화 학습 컴퓨팅 확장의 기술
The Art of Scaling Reinforcement Learning Compute for LLMs
October 15, 2025
저자: Devvrit Khatri, Lovish Madaan, Rishabh Tiwari, Rachit Bansal, Sai Surya Duvvuri, Manzil Zaheer, Inderjit S. Dhillon, David Brandfonbrener, Rishabh Agarwal
cs.AI
초록
강화 학습(Reinforcement Learning, RL)은 대규모 언어 모델(Large Language Models, LLMs) 훈련의 핵심이 되었지만, 이 분야는 사전 훈련(pre-training)에서 확립된 것과 유사한 예측적 확장 방법론이 부족한 상황입니다. 계산 예산이 급격히 증가함에도 불구하고, RL 계산을 확장하기 위한 알고리즘 개선을 평가하는 데 있어 원칙적인 이해가 부족합니다. 본 연구는 400,000 GPU-시간 이상의 대규모 체계적 연구를 통해 LLM에서의 RL 확장을 분석하고 예측하기 위한 원칙적인 프레임워크를 정의합니다. 우리는 RL 훈련에 대한 시그모이드형 계산-성능 곡선을 적합시키고, 다양한 일반적인 설계 선택을 제거하여 점근적 성능(asymptotic performance)과 계산 효율성에 미치는 영향을 분석합니다. 주요 관찰 결과는 다음과 같습니다: (1) 모든 레시피가 유사한 점근적 성능을 보이는 것은 아님, (2) 손실 집계(loss aggregation), 정규화(normalization), 커리큘럼(curriculum), 오프-폴리시 알고리즘(off-policy algorithm)과 같은 세부 사항은 주로 계산 효율성을 조절하며 점근선을 크게 이동시키지는 않음, (3) 안정적이고 확장 가능한 레시피는 예측 가능한 확장 궤적을 따르며, 이는 소규모 실행에서의 외삽(extrapolation)을 가능하게 함. 이러한 통찰을 종합하여, 우리는 최적의 실천 레시피인 ScaleRL을 제안하고, 이를 100,000 GPU-시간까지 확장한 단일 RL 실행에서 검증 성능을 성공적으로 예측함으로써 그 효과를 입증합니다. 본 연구는 RL에서의 확장을 분석하기 위한 과학적 프레임워크와, 사전 훈련에서 오랫동안 달성된 예측 가능성에 가까워지는 RL 훈련을 위한 실용적인 레시피를 제공합니다.
English
Reinforcement learning (RL) has become central to training large language
models (LLMs), yet the field lacks predictive scaling methodologies comparable
to those established for pre-training. Despite rapidly rising compute budgets,
there is no principled understanding of how to evaluate algorithmic
improvements for scaling RL compute. We present the first large-scale
systematic study, amounting to more than 400,000 GPU-hours, that defines a
principled framework for analyzing and predicting RL scaling in LLMs. We fit
sigmoidal compute-performance curves for RL training and ablate a wide range of
common design choices to analyze their effects on asymptotic performance and
compute efficiency. We observe: (1) Not all recipes yield similar asymptotic
performance, (2) Details such as loss aggregation, normalization, curriculum,
and off-policy algorithm primarily modulate compute efficiency without
materially shifting the asymptote, and (3) Stable, scalable recipes follow
predictable scaling trajectories, enabling extrapolation from smaller-scale
runs. Combining these insights, we propose a best-practice recipe, ScaleRL, and
demonstrate its effectiveness by successfully scaling and predicting validation
performance on a single RL run scaled up to 100,000 GPU-hours. Our work
provides both a scientific framework for analyzing scaling in RL and a
practical recipe that brings RL training closer to the predictability long
achieved in pre-training.