ECHO-2 : Un cadre de déploiement distribué à grande échelle pour l'apprentissage par renforcement économe en coût
ECHO-2: A Large-Scale Distributed Rollout Framework for Cost-Efficient Reinforcement Learning
February 2, 2026
papers.authors: Jie Xiao, Meng Chen, Qingnan Ren, Jingwei Song, Jiaqi Huang, Yangshen Deng, Chris Tong, Wanyi Chen, Suli Wang, Ziqian Bi, Shuo Lu, Yiqun Duan, Xu Wang, Rymon Yu, Ween Yang, Lynn Ai, Eric Yang, Bill Shi, Song Jingwei
cs.AI
papers.abstract
L'apprentissage par renforcement (RL) constitue une étape cruciale dans le post-entraînement des grands modèles de langage (LLM), impliquant une interaction répétée entre la génération de rollouts, l'évaluation des récompenses et l'apprentissage centralisé. La distribution de l'exécution des rollouts offre la possibilité d'exploiter des ressources d'inférence plus économiques, mais introduit des défis en matière de coordination géographiquement distribuée et de diffusion des politiques. Nous présentons ECHO-2, un cadre RL distribué pour le post-entraînement utilisant des workers d'inférence distants et présentant une latence de diffusion non négligeable. ECHO-2 combine un apprentissage centralisé avec des rollouts distribués et traite le décalage borné de la politique comme un paramètre contrôlable par l'utilisateur, permettant un chevauchement entre la génération des rollouts, leur diffusion et l'entraînement. Nous introduisons un modèle de capacité basé sur le chevauchement qui relie le temps d'entraînement, la latence de diffusion et le débit des rollouts, produisant une règle d'approvisionnement pratique pour maintenir l'utilisation du learner. Pour atténuer les goulots d'étranglement de diffusion et réduire les coûts, ECHO-2 emploie une diffusion en pipeline assistée par les pairs et une activation hétérogène des workers tenant compte des coûts. Les expériences sur le post-entraînement GRPO de modèles de 4B et 8B paramètres, dans des régimes de bande passante réalistes en réseau étendu, montrent qu'ECHO-2 améliore significativement l'efficacité économique tout en préservant une récompense RL comparable à celle de bases de référence solides.
English
Reinforcement learning (RL) is a critical stage in post-training large language models (LLMs), involving repeated interaction between rollout generation, reward evaluation, and centralized learning. Distributing rollout execution offers opportunities to leverage more cost-efficient inference resources, but introduces challenges in wide-area coordination and policy dissemination. We present ECHO-2, a distributed RL framework for post-training with remote inference workers and non-negligible dissemination latency. ECHO-2 combines centralized learning with distributed rollouts and treats bounded policy staleness as a user-controlled parameter, enabling rollout generation, dissemination, and training to overlap. We introduce an overlap-based capacity model that relates training time, dissemination latency, and rollout throughput, yielding a practical provisioning rule for sustaining learner utilization. To mitigate dissemination bottlenecks and lower cost, ECHO-2 employs peer-assisted pipelined broadcast and cost-aware activation of heterogeneous workers. Experiments on GRPO post-training of 4B and 8B models under real wide-area bandwidth regimes show that ECHO-2 significantly improves cost efficiency while preserving RL reward comparable to strong baselines.