ChatPaper.aiChatPaper

ECHO-2: Масштабируемая распределенная система развертывания для экономически эффективного обучения с подкреплением

ECHO-2: A Large-Scale Distributed Rollout Framework for Cost-Efficient Reinforcement Learning

February 2, 2026
Авторы: Jie Xiao, Meng Chen, Qingnan Ren, Jingwei Song, Jiaqi Huang, Yangshen Deng, Chris Tong, Wanyi Chen, Suli Wang, Ziqian Bi, Shuo Lu, Yiqun Duan, Xu Wang, Rymon Yu, Ween Yang, Lynn Ai, Eric Yang, Bill Shi, Song Jingwei
cs.AI

Аннотация

Обучение с подкреплением (ОП) является критически важным этапом посттренировочной доработки больших языковых моделей (LLM), включающим повторяющееся взаимодействие между генерацией rollout-ов, оценкой вознаграждения и централизованным обучением. Распределенное выполнение rollout-ов предоставляет возможности для использования более экономичных ресурсов вывода, но создает проблемы в области координации в глобальной сети и распространения политик. Мы представляем ECHO-2, распределенную структуру ОП для посттренировочной доработки с удаленными работниками вывода и ненулевой задержкой распространения. ECHO-2 сочетает централизованное обучение с распределенными rollout-ами и рассматривает ограниченную устареваемость политики как управляемый пользователем параметр, позволяя совмещать во времени генерацию rollout-ов, их распространение и обучение. Мы вводим модель пропускной способности на основе совмещения, которая связывает время обучения, задержку распространения и пропускную способность rollout-ов, предлагая практическое правило планирования ресурсов для поддержания загрузки обучающего модуля. Для смягчения узких мест распространения и снижения затрат ECHO-2 использует одноранговую конвейерную широковещательную рассылку и рентабельную активацию гетерогенных работников. Эксперименты по посттренировочной доработке моделей на 4 и 8 миллиардов параметров с помощью GRPO в условиях реальных режимов пропускной способности глобальной сети показывают, что ECHO-2 значительно повышает рентабельность, сохраняя при этом показатель вознаграждения ОП, сопоставимый с сильными базовыми уровнями.
English
Reinforcement learning (RL) is a critical stage in post-training large language models (LLMs), involving repeated interaction between rollout generation, reward evaluation, and centralized learning. Distributing rollout execution offers opportunities to leverage more cost-efficient inference resources, but introduces challenges in wide-area coordination and policy dissemination. We present ECHO-2, a distributed RL framework for post-training with remote inference workers and non-negligible dissemination latency. ECHO-2 combines centralized learning with distributed rollouts and treats bounded policy staleness as a user-controlled parameter, enabling rollout generation, dissemination, and training to overlap. We introduce an overlap-based capacity model that relates training time, dissemination latency, and rollout throughput, yielding a practical provisioning rule for sustaining learner utilization. To mitigate dissemination bottlenecks and lower cost, ECHO-2 employs peer-assisted pipelined broadcast and cost-aware activation of heterogeneous workers. Experiments on GRPO post-training of 4B and 8B models under real wide-area bandwidth regimes show that ECHO-2 significantly improves cost efficiency while preserving RL reward comparable to strong baselines.
PDF61February 13, 2026