ECHO-2: Масштабируемая распределенная система развертывания для экономически эффективного обучения с подкреплением

Аннотация

Обучение с подкреплением (ОП) является критически важным этапом посттренировочной доработки больших языковых моделей (LLM), включающим повторяющееся взаимодействие между генерацией rollout-ов, оценкой вознаграждения и централизованным обучением. Распределенное выполнение rollout-ов предоставляет возможности для использования более экономичных ресурсов вывода, но создает проблемы в области координации в глобальной сети и распространения политик. Мы представляем ECHO-2, распределенную структуру ОП для посттренировочной доработки с удаленными работниками вывода и ненулевой задержкой распространения. ECHO-2 сочетает централизованное обучение с распределенными rollout-ами и рассматривает ограниченную устареваемость политики как управляемый пользователем параметр, позволяя совмещать во времени генерацию rollout-ов, их распространение и обучение. Мы вводим модель пропускной способности на основе совмещения, которая связывает время обучения, задержку распространения и пропускную способность rollout-ов, предлагая практическое правило планирования ресурсов для поддержания загрузки обучающего модуля. Для смягчения узких мест распространения и снижения затрат ECHO-2 использует одноранговую конвейерную широковещательную рассылку и рентабельную активацию гетерогенных работников. Эксперименты по посттренировочной доработке моделей на 4 и 8 миллиардов параметров с помощью GRPO в условиях реальных режимов пропускной способности глобальной сети показывают, что ECHO-2 значительно повышает рентабельность, сохраняя при этом показатель вознаграждения ОП, сопоставимый с сильными базовыми уровнями.

English

Reinforcement learning (RL) is a critical stage in post-training large language models (LLMs), involving repeated interaction between rollout generation, reward evaluation, and centralized learning. Distributing rollout execution offers opportunities to leverage more cost-efficient inference resources, but introduces challenges in wide-area coordination and policy dissemination. We present ECHO-2, a distributed RL framework for post-training with remote inference workers and non-negligible dissemination latency. ECHO-2 combines centralized learning with distributed rollouts and treats bounded policy staleness as a user-controlled parameter, enabling rollout generation, dissemination, and training to overlap. We introduce an overlap-based capacity model that relates training time, dissemination latency, and rollout throughput, yielding a practical provisioning rule for sustaining learner utilization. To mitigate dissemination bottlenecks and lower cost, ECHO-2 employs peer-assisted pipelined broadcast and cost-aware activation of heterogeneous workers. Experiments on GRPO post-training of 4B and 8B models under real wide-area bandwidth regimes show that ECHO-2 significantly improves cost efficiency while preserving RL reward comparable to strong baselines.

ECHO-2: Масштабируемая распределенная система развертывания для экономически эффективного обучения с подкреплением

ECHO-2: A Large-Scale Distributed Rollout Framework for Cost-Efficient Reinforcement Learning

Аннотация

Support