ECHO-2:コスト効率の高い強化学習のための大規模分散ロールアウトフレームワーク
ECHO-2: A Large-Scale Distributed Rollout Framework for Cost-Efficient Reinforcement Learning
February 2, 2026
著者: Jie Xiao, Meng Chen, Qingnan Ren, Jingwei Song, Jiaqi Huang, Yangshen Deng, Chris Tong, Wanyi Chen, Suli Wang, Ziqian Bi, Shuo Lu, Yiqun Duan, Xu Wang, Rymon Yu, Ween Yang, Lynn Ai, Eric Yang, Bill Shi, Song Jingwei
cs.AI
要旨
強化学習(RL)は、大規模言語モデル(LLM)の学習後調整における重要な段階であり、ロールアウト生成、報酬評価、集中学習間の反復的な相互作用を含む。ロールアウト実行を分散化することは、よりコスト効率の高い推論リソースを活用する機会を提供するが、広域協調とポリシー伝播における課題を導入する。本論文では、遠隔の推論ワーカーと無視できない伝播遅延を伴う学習後調整のための分散RLフレームワークであるECHO-2を提案する。ECHO-2は、集中学習と分散ロールアウトを組み合わせ、有界なポリシー陳腐化をユーザー制御可能なパラメータとして扱うことで、ロールアウト生成、伝播、学習のオーバーラップを可能にする。学習時間、伝播遅延、ロールアウトスループットを関連付けるオーバーラップベースの容量モデルを導入し、学習器の利用率を維持するための実用的なリソース割り当てルールを導出する。伝播のボトルネックを緩和しコストを削減するため、ECHO-2はピア支援パイプライン型ブロードキャストと、異種ワーカーのコストを考慮した活性化を採用する。実広域帯域幅環境下での4Bおよび8Bモデルに対するGRPO学習後調整における実験により、ECHO-2が強力なベースラインと同等のRL報酬を維持しつつ、コスト効率を大幅に改善することを示す。
English
Reinforcement learning (RL) is a critical stage in post-training large language models (LLMs), involving repeated interaction between rollout generation, reward evaluation, and centralized learning. Distributing rollout execution offers opportunities to leverage more cost-efficient inference resources, but introduces challenges in wide-area coordination and policy dissemination. We present ECHO-2, a distributed RL framework for post-training with remote inference workers and non-negligible dissemination latency. ECHO-2 combines centralized learning with distributed rollouts and treats bounded policy staleness as a user-controlled parameter, enabling rollout generation, dissemination, and training to overlap. We introduce an overlap-based capacity model that relates training time, dissemination latency, and rollout throughput, yielding a practical provisioning rule for sustaining learner utilization. To mitigate dissemination bottlenecks and lower cost, ECHO-2 employs peer-assisted pipelined broadcast and cost-aware activation of heterogeneous workers. Experiments on GRPO post-training of 4B and 8B models under real wide-area bandwidth regimes show that ECHO-2 significantly improves cost efficiency while preserving RL reward comparable to strong baselines.