ChatPaper.aiChatPaper

ECHO-2: Ein groß angelegtes verteiltes Rollout-Framework für kosteneffizientes Reinforcement Learning

ECHO-2: A Large-Scale Distributed Rollout Framework for Cost-Efficient Reinforcement Learning

February 2, 2026
papers.authors: Jie Xiao, Meng Chen, Qingnan Ren, Jingwei Song, Jiaqi Huang, Yangshen Deng, Chris Tong, Wanyi Chen, Suli Wang, Ziqian Bi, Shuo Lu, Yiqun Duan, Xu Wang, Rymon Yu, Ween Yang, Lynn Ai, Eric Yang, Bill Shi, Song Jingwei
cs.AI

papers.abstract

Verstärkendes Lernen (RL) ist eine entscheidende Phase beim Nachtraining großer Sprachmodelle (LLMs) und umfasst wiederholte Interaktion zwischen Rollout-Generierung, Belohnungsbewertung und zentralisiertem Lernen. Die Verteilung der Rollout-Ausführung bietet Möglichkeiten, kostengünstigere Inferenzressourcen zu nutzen, führt jedoch zu Herausforderungen bei der weiträumigen Koordination und Policy-Verbreitung. Wir stellen ECHO-2 vor, ein verteiltes RL-Framework für das Nachtraining mit entfernten Inferenz-Workern und nicht vernachlässigbarer Verbreitungslatenz. ECHO-2 kombiniert zentralisiertes Lernen mit verteilten Rollouts und behandelt begrenzte Policy-Veralterung als einen benutzerkontrollierbaren Parameter, was eine Überlappung von Rollout-Generierung, -Verbreitung und Training ermöglicht. Wir führen ein überlappungsbasiertes Kapazitätsmodell ein, das Trainingszeit, Verbreitungslatenz und Rollout-Durchsatz in Beziehung setzt und eine praktische Bereitstellungsregel zur Aufrechterhaltung der Lernauslastung liefert. Um Verbreitungsengpässe zu mindern und die Kosten zu senken, setzt ECHO-2 peer-gestützte Pipeline-Broadcasts und kostensensitive Aktivierung heterogener Worker ein. Experimente zum GRPO-Nachtraining von 4B- und 8B-Modellen unter realen Weitverkehrsbandbreitenbedingungen zeigen, dass ECHO-2 die Kosteneffizienz deutlich verbessert und dabei eine mit starken Baseline-Modellen vergleichbare RL-Belohnung beibehält.
English
Reinforcement learning (RL) is a critical stage in post-training large language models (LLMs), involving repeated interaction between rollout generation, reward evaluation, and centralized learning. Distributing rollout execution offers opportunities to leverage more cost-efficient inference resources, but introduces challenges in wide-area coordination and policy dissemination. We present ECHO-2, a distributed RL framework for post-training with remote inference workers and non-negligible dissemination latency. ECHO-2 combines centralized learning with distributed rollouts and treats bounded policy staleness as a user-controlled parameter, enabling rollout generation, dissemination, and training to overlap. We introduce an overlap-based capacity model that relates training time, dissemination latency, and rollout throughput, yielding a practical provisioning rule for sustaining learner utilization. To mitigate dissemination bottlenecks and lower cost, ECHO-2 employs peer-assisted pipelined broadcast and cost-aware activation of heterogeneous workers. Experiments on GRPO post-training of 4B and 8B models under real wide-area bandwidth regimes show that ECHO-2 significantly improves cost efficiency while preserving RL reward comparable to strong baselines.
PDF61February 13, 2026