ChatPaper.aiChatPaper

AReaL:言語推論のための大規模非同期強化学習システム

AReaL: A Large-Scale Asynchronous Reinforcement Learning System for Language Reasoning

May 30, 2025
著者: Wei Fu, Jiaxuan Gao, Xujie Shen, Chen Zhu, Zhiyu Mei, Chuyi He, Shusheng Xu, Guo Wei, Jun Mei, Jiashu Wang, Tongkai Yang, Binhang Yuan, Yi Wu
cs.AI

要旨

強化学習(Reinforcement Learning, RL)は、特に推論タスクにおいて大規模言語モデル(Large Language Models, LLMs)を訓練するためのトレンドとなっている。LLMsに対する効果的なRLは、大規模な並列化を必要とし、効率的な訓練システムの緊急なニーズを提起している。既存の大規模RLシステムの多くは、バッチ設定において生成と訓練を交互に行う同期型であり、各訓練バッチのロールアウトは同じ(または最新の)モデルによって生成される。これはRL訓練を安定化させるが、システムレベルの非効率性を引き起こす。生成はバッチ内の最長の出力が完了するまで待機しなければならず、結果としてGPUの利用率が低下する。本論文では、生成と訓練を完全に分離した完全非同期型RLシステムであるAReaLを提案する。AReaLのロールアウトワーカーは待機することなく新しい出力を継続的に生成し、訓練ワーカーはデータのバッチが収集されるたびにモデルを更新する。AReaLはまた、システムレベルの最適化を組み込むことで、大幅に高いGPU利用率を実現する。RL訓練を安定化させるために、AReaLはロールアウトワーカーと訓練ワーカーのワークロードをバランスさせてデータの陳腐化を制御し、陳腐化を考慮したPPOの変種を採用して古くなった訓練サンプルをより適切に処理する。数学およびコード推論のベンチマークにおける広範な実験により、AReaLは同じ数のGPUを使用した最良の同期型システムと比較して最大2.57倍の訓練速度向上を達成し、最終的な性能も同等または向上させることが示された。AReaLのコードはhttps://github.com/inclusionAI/AReaL/で公開されている。
English
Reinforcement learning (RL) has become a trending paradigm for training large language models (LLMs), particularly for reasoning tasks. Effective RL for LLMs requires massive parallelization and poses an urgent need for efficient training systems. Most existing large-scale RL systems for LLMs are synchronous by alternating generation and training in a batch setting, where the rollouts in each training batch are generated by the same (or latest) model. This stabilizes RL training but suffers from severe system-level inefficiency. Generation must wait until the longest output in the batch is completed before model update, resulting in GPU underutilization. We present AReaL, a fully asynchronous RL system that completely decouples generation from training. Rollout workers in AReaL continuously generate new outputs without waiting, while training workers update the model whenever a batch of data is collected. AReaL also incorporates a collection of system-level optimizations, leading to substantially higher GPU utilization. To stabilize RL training, AReaL balances the workload of rollout and training workers to control data staleness, and adopts a staleness-enhanced PPO variant to better handle outdated training samples. Extensive experiments on math and code reasoning benchmarks show that AReaL achieves up to 2.57times training speedup compared to the best synchronous systems with the same number of GPUs and matched or even improved final performance. The code of AReaL is available at https://github.com/inclusionAI/AReaL/.
PDF212June 3, 2025