ECHO-2: Un Marco de Implementación Distribuida a Gran Escala para el Aprendizaje por Refuerzo de Bajo Coste
ECHO-2: A Large-Scale Distributed Rollout Framework for Cost-Efficient Reinforcement Learning
February 2, 2026
Autores: Jie Xiao, Meng Chen, Qingnan Ren, Jingwei Song, Jiaqi Huang, Yangshen Deng, Chris Tong, Wanyi Chen, Suli Wang, Ziqian Bi, Shuo Lu, Yiqun Duan, Xu Wang, Rymon Yu, Ween Yang, Lynn Ai, Eric Yang, Bill Shi, Song Jingwei
cs.AI
Resumen
El aprendizaje por refuerzo (RL) es una etapa crítica en el post-entrenamiento de modelos de lenguaje grandes (LLM), que implica la interacción repetida entre la generación de rollouts, la evaluación de recompensas y el aprendizaje centralizado. Distribuir la ejecución de rollouts ofrece oportunidades para aprovechar recursos de inferencia más rentables, pero introduce desafíos en la coordinación de área amplia y la diseminación de políticas. Presentamos ECHO-2, un marco de RL distribuido para post-entrenamiento con trabajadores de inferencia remotos y una latencia de diseminación no despreciable. ECHO-2 combina el aprendizaje centralizado con rollouts distribuidos y trata el desfase acotado de la política como un parámetro controlado por el usuario, permitiendo que la generación de rollouts, la diseminación y el entrenamiento se solapen. Introducimos un modelo de capacidad basado en solapamiento que relaciona el tiempo de entrenamiento, la latencia de diseminación y el rendimiento de los rollouts, produciendo una regla práctica de aprovisionamiento para mantener la utilización del aprendiz. Para mitigar los cuellos de botella en la diseminación y reducir costos, ECHO-2 emplea difusión pipeline asistida por pares y activación consciente del costo de trabajadores heterogéneos. Los experimentos en el post-entrenamiento GRPO de modelos de 4B y 8B bajo regímenes reales de ancho de banda de área amplia muestran que ECHO-2 mejora significativamente la eficiencia de costos mientras preserva una recompensa de RL comparable con líneas base sólidas.
English
Reinforcement learning (RL) is a critical stage in post-training large language models (LLMs), involving repeated interaction between rollout generation, reward evaluation, and centralized learning. Distributing rollout execution offers opportunities to leverage more cost-efficient inference resources, but introduces challenges in wide-area coordination and policy dissemination. We present ECHO-2, a distributed RL framework for post-training with remote inference workers and non-negligible dissemination latency. ECHO-2 combines centralized learning with distributed rollouts and treats bounded policy staleness as a user-controlled parameter, enabling rollout generation, dissemination, and training to overlap. We introduce an overlap-based capacity model that relates training time, dissemination latency, and rollout throughput, yielding a practical provisioning rule for sustaining learner utilization. To mitigate dissemination bottlenecks and lower cost, ECHO-2 employs peer-assisted pipelined broadcast and cost-aware activation of heterogeneous workers. Experiments on GRPO post-training of 4B and 8B models under real wide-area bandwidth regimes show that ECHO-2 significantly improves cost efficiency while preserving RL reward comparable to strong baselines.