ECHO-2: Een grootschalig gedistribueerd implementatiekader voor kostenefficiënte reinforcement learning
ECHO-2: A Large-Scale Distributed Rollout Framework for Cost-Efficient Reinforcement Learning
February 2, 2026
Auteurs: Jie Xiao, Meng Chen, Qingnan Ren, Jingwei Song, Jiaqi Huang, Yangshen Deng, Chris Tong, Wanyi Chen, Suli Wang, Ziqian Bi, Shuo Lu, Yiqun Duan, Xu Wang, Rymon Yu, Ween Yang, Lynn Ai, Eric Yang, Bill Shi, Song Jingwei
cs.AI
Samenvatting
Versterkend leren (RL) is een cruciale fase in het na-trainen van grote taalmodellen (LLM's) en omvat een herhaalde interactie tussen rollout-generatie, belonings evaluatie en gecentraliseerd leren. Het distribueren van rollout-uitvoering biedt mogelijkheden om kostenefficiëntere inferentiemiddelen te benutten, maar introduceert uitdagingen op het gebied van wide-area-coördinatie en policy-disseminatie. Wij presenteren ECHO-2, een gedistribueerd RL-framework voor na-trainen met externe inference-workers en niet-verwaarloosbare disseminatielatentie. ECHO-2 combineert gecentraliseerd leren met gedistribueerde rollouts en behandelt beperkte policy-veroudering als een door de gebruiker gecontroleerde parameter, waardoor rollout-generatie, disseminatie en training kunnen overlappen. We introduceren een op overlap gebaseerd capaciteitsmodel dat de trainingsduur, disseminatielatentie en rollout-doorvoer relateert, wat resulteert in een praktische provisioning-regel om het gebruik van de learner op peil te houden. Om disseminatie knelpunten te verminderen en de kosten te verlagen, gebruikt ECHO-2 peer-assisted gepipelineerde broadcast en kostbewuste activering van heterogene workers. Experimenten met GRPO na-trainen van 4B- en 8B-modellen onder realistische wide-area-bandbreedteregimes tonen aan dat ECHO-2 de kostenefficiëntie aanzienlijk verbetert, terwijl de RL-beloning vergelijkbaar blijft met sterke baseline-methoden.
English
Reinforcement learning (RL) is a critical stage in post-training large language models (LLMs), involving repeated interaction between rollout generation, reward evaluation, and centralized learning. Distributing rollout execution offers opportunities to leverage more cost-efficient inference resources, but introduces challenges in wide-area coordination and policy dissemination. We present ECHO-2, a distributed RL framework for post-training with remote inference workers and non-negligible dissemination latency. ECHO-2 combines centralized learning with distributed rollouts and treats bounded policy staleness as a user-controlled parameter, enabling rollout generation, dissemination, and training to overlap. We introduce an overlap-based capacity model that relates training time, dissemination latency, and rollout throughput, yielding a practical provisioning rule for sustaining learner utilization. To mitigate dissemination bottlenecks and lower cost, ECHO-2 employs peer-assisted pipelined broadcast and cost-aware activation of heterogeneous workers. Experiments on GRPO post-training of 4B and 8B models under real wide-area bandwidth regimes show that ECHO-2 significantly improves cost efficiency while preserving RL reward comparable to strong baselines.