ECHO-2: Een grootschalig gedistribueerd implementatiekader voor kostenefficiënte reinforcement learning

Samenvatting

Versterkend leren (RL) is een cruciale fase in het na-trainen van grote taalmodellen (LLM's) en omvat een herhaalde interactie tussen rollout-generatie, belonings evaluatie en gecentraliseerd leren. Het distribueren van rollout-uitvoering biedt mogelijkheden om kostenefficiëntere inferentiemiddelen te benutten, maar introduceert uitdagingen op het gebied van wide-area-coördinatie en policy-disseminatie. Wij presenteren ECHO-2, een gedistribueerd RL-framework voor na-trainen met externe inference-workers en niet-verwaarloosbare disseminatielatentie. ECHO-2 combineert gecentraliseerd leren met gedistribueerde rollouts en behandelt beperkte policy-veroudering als een door de gebruiker gecontroleerde parameter, waardoor rollout-generatie, disseminatie en training kunnen overlappen. We introduceren een op overlap gebaseerd capaciteitsmodel dat de trainingsduur, disseminatielatentie en rollout-doorvoer relateert, wat resulteert in een praktische provisioning-regel om het gebruik van de learner op peil te houden. Om disseminatie knelpunten te verminderen en de kosten te verlagen, gebruikt ECHO-2 peer-assisted gepipelineerde broadcast en kostbewuste activering van heterogene workers. Experimenten met GRPO na-trainen van 4B- en 8B-modellen onder realistische wide-area-bandbreedteregimes tonen aan dat ECHO-2 de kostenefficiëntie aanzienlijk verbetert, terwijl de RL-beloning vergelijkbaar blijft met sterke baseline-methoden.

English

Reinforcement learning (RL) is a critical stage in post-training large language models (LLMs), involving repeated interaction between rollout generation, reward evaluation, and centralized learning. Distributing rollout execution offers opportunities to leverage more cost-efficient inference resources, but introduces challenges in wide-area coordination and policy dissemination. We present ECHO-2, a distributed RL framework for post-training with remote inference workers and non-negligible dissemination latency. ECHO-2 combines centralized learning with distributed rollouts and treats bounded policy staleness as a user-controlled parameter, enabling rollout generation, dissemination, and training to overlap. We introduce an overlap-based capacity model that relates training time, dissemination latency, and rollout throughput, yielding a practical provisioning rule for sustaining learner utilization. To mitigate dissemination bottlenecks and lower cost, ECHO-2 employs peer-assisted pipelined broadcast and cost-aware activation of heterogeneous workers. Experiments on GRPO post-training of 4B and 8B models under real wide-area bandwidth regimes show that ECHO-2 significantly improves cost efficiency while preserving RL reward comparable to strong baselines.

ECHO-2: Een grootschalig gedistribueerd implementatiekader voor kostenefficiënte reinforcement learning

ECHO-2: A Large-Scale Distributed Rollout Framework for Cost-Efficient Reinforcement Learning

Samenvatting

Support