ECHO-2: 비용 효율적인 강화 학습을 위한 대규모 분산 롤아웃 프레임워크
ECHO-2: A Large-Scale Distributed Rollout Framework for Cost-Efficient Reinforcement Learning
February 2, 2026
저자: Jie Xiao, Meng Chen, Qingnan Ren, Jingwei Song, Jiaqi Huang, Yangshen Deng, Chris Tong, Wanyi Chen, Suli Wang, Ziqian Bi, Shuo Lu, Yiqun Duan, Xu Wang, Rymon Yu, Ween Yang, Lynn Ai, Eric Yang, Bill Shi, Song Jingwei
cs.AI
초록
강화학습(RL)은 대규모 언어 모델(LLM)의 사후 훈련에서 롤아웃 생성, 보상 평가, 중앙 집중식 학습 간의 반복적 상호작용을 포함하는 중요한 단계입니다. 롤아웃 실행을 분산화하면 더욱 비용 효율적인 추론 자원을 활용할 기회가 생기지만, 광역 조정 및 정책 전파 측면에서 과제가 발생합니다. 본 논문에서는 원격 추론 작업자와 무시할 수 없는 전파 지연을 수반하는 사후 훈련을 위한 분산 RL 프레임워크인 ECHO-2를 제시합니다. ECHO-2는 중앙 집중식 학습과 분산 롤아웃을 결합하고, 제한된 정책 부실을 사용자 제어 매개변수로 취급하여 롤아웃 생성, 전파 및 훈련이 중첩되도록 합니다. 또한 훈련 시간, 전파 지연 및 롤아웃 처리량을 연관짓는 중첩 기반 용량 모델을 도입하여 학습자 활용률을 유지하기 위한 실용적인 프로비저닝 규칙을 제공합니다. ECHO-2는 전파 병목 현상을 완화하고 비용을 절감하기 위해 피어 지원 파이프라인 브로드캐스트와 이기종 작업자의 비용 인식 활성화를 활용합니다. 실제 광역 대역폭 환경에서 4B 및 8B 모델에 대한 GRPO 사후 훈련 실험 결과, ECHO-2가 강력한 베이스라인 대비 비교 가능한 RL 보상을 유지하면서 비용 효율성을 크게 향상시키는 것으로 나타났습니다.
English
Reinforcement learning (RL) is a critical stage in post-training large language models (LLMs), involving repeated interaction between rollout generation, reward evaluation, and centralized learning. Distributing rollout execution offers opportunities to leverage more cost-efficient inference resources, but introduces challenges in wide-area coordination and policy dissemination. We present ECHO-2, a distributed RL framework for post-training with remote inference workers and non-negligible dissemination latency. ECHO-2 combines centralized learning with distributed rollouts and treats bounded policy staleness as a user-controlled parameter, enabling rollout generation, dissemination, and training to overlap. We introduce an overlap-based capacity model that relates training time, dissemination latency, and rollout throughput, yielding a practical provisioning rule for sustaining learner utilization. To mitigate dissemination bottlenecks and lower cost, ECHO-2 employs peer-assisted pipelined broadcast and cost-aware activation of heterogeneous workers. Experiments on GRPO post-training of 4B and 8B models under real wide-area bandwidth regimes show that ECHO-2 significantly improves cost efficiency while preserving RL reward comparable to strong baselines.