ChatPaper.aiChatPaper

ECHO-2: Un Framework Distribuito su Larga Scala per il Deployment Efficiente di Apprendimento per Rinforzo

ECHO-2: A Large-Scale Distributed Rollout Framework for Cost-Efficient Reinforcement Learning

February 2, 2026
Autori: Jie Xiao, Meng Chen, Qingnan Ren, Jingwei Song, Jiaqi Huang, Yangshen Deng, Chris Tong, Wanyi Chen, Suli Wang, Ziqian Bi, Shuo Lu, Yiqun Duan, Xu Wang, Rymon Yu, Ween Yang, Lynn Ai, Eric Yang, Bill Shi, Song Jingwei
cs.AI

Abstract

L’apprendimento per rinforzo (RL) è una fase critica nel post-training di grandi modelli linguistici (LLM), che coinvolge l’interazione ripetuta tra generazione di rollout, valutazione della ricompensa e apprendimento centralizzato. Distribuire l’esecuzione dei rollout offre l’opportunità di sfruttare risorse di inferenza più economiche, ma introduce sfide nella coordinazione geograficamente distribuita e nella disseminazione della politica. Presentiamo ECHO-2, un framework RL distribuito per il post-training con worker di inferenza remoti e latenza di disseminazione non trascurabile. ECHO-2 combina un apprendimento centralizzato con rollout distribuiti e tratta la obsolescenza limitata della politica come un parametro controllabile dall’utente, permettendo alla generazione dei rollout, alla loro disseminazione e all’addestramento di sovrapporsi. Introduciamo un modello di capacità basato sulla sovrapposizione che mette in relazione tempo di addestramento, latenza di disseminazione e throughput dei rollout, producendo una regola pratica di provisioning per sostenere l’utilizzo del learner. Per mitigare i colli di bottiglia nella disseminazione e ridurre i costi, ECHO-2 impiega un broadcast pipeline assistito da peer e l’attivazione basata sul costo di worker eterogenei. Esperimenti sul post-training GRPO di modelli da 4B e 8B parametri, in regimi di banda wide-area reali, mostrano che ECHO-2 migliora significativamente l’efficienza dei costi preservando una ricompensa RL comparabile a baseline solide.
English
Reinforcement learning (RL) is a critical stage in post-training large language models (LLMs), involving repeated interaction between rollout generation, reward evaluation, and centralized learning. Distributing rollout execution offers opportunities to leverage more cost-efficient inference resources, but introduces challenges in wide-area coordination and policy dissemination. We present ECHO-2, a distributed RL framework for post-training with remote inference workers and non-negligible dissemination latency. ECHO-2 combines centralized learning with distributed rollouts and treats bounded policy staleness as a user-controlled parameter, enabling rollout generation, dissemination, and training to overlap. We introduce an overlap-based capacity model that relates training time, dissemination latency, and rollout throughput, yielding a practical provisioning rule for sustaining learner utilization. To mitigate dissemination bottlenecks and lower cost, ECHO-2 employs peer-assisted pipelined broadcast and cost-aware activation of heterogeneous workers. Experiments on GRPO post-training of 4B and 8B models under real wide-area bandwidth regimes show that ECHO-2 significantly improves cost efficiency while preserving RL reward comparable to strong baselines.
PDF122March 10, 2026