ECHO-2: Uma Estrutura de Implantação em Larga Escala e Distribuída para Aprendizagem por Reforço de Baixo Custo
ECHO-2: A Large-Scale Distributed Rollout Framework for Cost-Efficient Reinforcement Learning
February 2, 2026
Autores: Jie Xiao, Meng Chen, Qingnan Ren, Jingwei Song, Jiaqi Huang, Yangshen Deng, Chris Tong, Wanyi Chen, Suli Wang, Ziqian Bi, Shuo Lu, Yiqun Duan, Xu Wang, Rymon Yu, Ween Yang, Lynn Ai, Eric Yang, Bill Shi, Song Jingwei
cs.AI
Resumo
O aprendizado por reforço (RL) é uma etapa crítica no pós-treinamento de grandes modelos de linguagem (LLMs), envolvendo a interação repetida entre a geração de rollouts, avaliação de recompensa e aprendizado centralizado. Distribuir a execução de rollouts oferece oportunidades para aproveitar recursos de inferência mais econômicos, mas introduz desafios na coordenação de área ampla e na disseminação de políticas. Apresentamos o ECHO-2, uma estrutura de RL distribuída para pós-treinamento com workers de inferência remotos e latência de disseminação não negligenciável. O ECHO-2 combina aprendizado centralizado com rollouts distribuídos e trata a obsolescência limitada da política como um parâmetro controlado pelo usuário, permitindo que a geração de rollouts, a disseminação e o treinamento se sobreponham. Introduzimos um modelo de capacidade baseado em sobreposição que relaciona o tempo de treinamento, a latência de disseminação e a taxa de transferência de rollouts, resultando em uma regra prática de provisionamento para sustentar a utilização do aprendiz. Para mitigar gargalos de disseminação e reduzir custos, o ECHO-2 emprega broadcast em pipeline com assistência de pares e ativação consciente do custo de workers heterogêneos. Experimentos no pós-treinamento GRPO de modelos de 4B e 8B sob regimes de banda larga de área ampla real mostram que o ECHO-2 melhora significativamente a eficiência de custo, preservando uma recompensa de RL comparável a bases de referência sólidas.
English
Reinforcement learning (RL) is a critical stage in post-training large language models (LLMs), involving repeated interaction between rollout generation, reward evaluation, and centralized learning. Distributing rollout execution offers opportunities to leverage more cost-efficient inference resources, but introduces challenges in wide-area coordination and policy dissemination. We present ECHO-2, a distributed RL framework for post-training with remote inference workers and non-negligible dissemination latency. ECHO-2 combines centralized learning with distributed rollouts and treats bounded policy staleness as a user-controlled parameter, enabling rollout generation, dissemination, and training to overlap. We introduce an overlap-based capacity model that relates training time, dissemination latency, and rollout throughput, yielding a practical provisioning rule for sustaining learner utilization. To mitigate dissemination bottlenecks and lower cost, ECHO-2 employs peer-assisted pipelined broadcast and cost-aware activation of heterogeneous workers. Experiments on GRPO post-training of 4B and 8B models under real wide-area bandwidth regimes show that ECHO-2 significantly improves cost efficiency while preserving RL reward comparable to strong baselines.