AReaL: 언어 추론을 위한 대규모 비동기식 강화 학습 시스템
AReaL: A Large-Scale Asynchronous Reinforcement Learning System for Language Reasoning
May 30, 2025
저자: Wei Fu, Jiaxuan Gao, Xujie Shen, Chen Zhu, Zhiyu Mei, Chuyi He, Shusheng Xu, Guo Wei, Jun Mei, Jiashu Wang, Tongkai Yang, Binhang Yuan, Yi Wu
cs.AI
초록
강화 학습(Reinforcement Learning, RL)은 대규모 언어 모델(Large Language Models, LLMs)을 훈련시키는 데 있어 특히 추론 작업에서 주목받는 패러다임으로 자리 잡았습니다. LLM을 위한 효과적인 RL은 대규모 병렬화를 필요로 하며, 효율적인 훈련 시스템의 긴급한 필요성을 제기합니다. 기존의 대부분의 대규모 RL 시스템은 배치 설정에서 생성과 훈련을 번갈아 가며 수행하는 동기식 방식으로, 각 훈련 배치의 롤아웃은 동일한(또는 최신) 모델에 의해 생성됩니다. 이는 RL 훈련을 안정화시키지만 시스템 수준의 심각한 비효율성을 초래합니다. 생성은 배치 내 가장 긴 출력이 완료될 때까지 기다려야 하며, 이로 인해 GPU 활용도가 저하됩니다. 본 논문에서는 생성과 훈련을 완전히 분리한 완전 비동기식 RL 시스템인 AReaL을 제안합니다. AReaL의 롤아웃 작업자는 기다리지 않고 지속적으로 새로운 출력을 생성하며, 훈련 작업자는 데이터 배치가 수집될 때마다 모델을 업데이트합니다. AReaL은 또한 시스템 수준의 최적화를 통합하여 GPU 활용도를 크게 향상시킵니다. RL 훈련을 안정화하기 위해 AReaL은 롤아웃과 훈련 작업자의 작업 부하를 균형 있게 조정하여 데이터의 신선도를 제어하고, 오래된 훈련 샘플을 더 잘 처리하기 위해 신선도 강화 PPO 변형을 채택합니다. 수학 및 코드 추론 벤치마크에서의 광범위한 실험 결과, AReaL은 동일한 수의 GPU를 사용하는 최고의 동기식 시스템에 비해 최대 2.57배의 훈련 속도 향상을 달성하며, 최종 성능도 동등하거나 더욱 개선되었음을 보여줍니다. AReaL의 코드는 https://github.com/inclusionAI/AReaL/에서 확인할 수 있습니다.
English
Reinforcement learning (RL) has become a trending paradigm for training large
language models (LLMs), particularly for reasoning tasks. Effective RL for LLMs
requires massive parallelization and poses an urgent need for efficient
training systems. Most existing large-scale RL systems for LLMs are synchronous
by alternating generation and training in a batch setting, where the rollouts
in each training batch are generated by the same (or latest) model. This
stabilizes RL training but suffers from severe system-level inefficiency.
Generation must wait until the longest output in the batch is completed before
model update, resulting in GPU underutilization. We present AReaL, a
fully asynchronous RL system that completely decouples generation from
training. Rollout workers in AReaL continuously generate new outputs without
waiting, while training workers update the model whenever a batch of data is
collected. AReaL also incorporates a collection of system-level optimizations,
leading to substantially higher GPU utilization. To stabilize RL training,
AReaL balances the workload of rollout and training workers to control data
staleness, and adopts a staleness-enhanced PPO variant to better handle
outdated training samples. Extensive experiments on math and code reasoning
benchmarks show that AReaL achieves up to 2.57times training
speedup compared to the best synchronous systems with the same number of GPUs
and matched or even improved final performance. The code of AReaL is available
at https://github.com/inclusionAI/AReaL/.