ECHO-2: Un Framework Distribuito su Larga Scala per il Deployment Efficiente di Apprendimento per Rinforzo

Abstract

L’apprendimento per rinforzo (RL) è una fase critica nel post-training di grandi modelli linguistici (LLM), che coinvolge l’interazione ripetuta tra generazione di rollout, valutazione della ricompensa e apprendimento centralizzato. Distribuire l’esecuzione dei rollout offre l’opportunità di sfruttare risorse di inferenza più economiche, ma introduce sfide nella coordinazione geograficamente distribuita e nella disseminazione della politica. Presentiamo ECHO-2, un framework RL distribuito per il post-training con worker di inferenza remoti e latenza di disseminazione non trascurabile. ECHO-2 combina un apprendimento centralizzato con rollout distribuiti e tratta la obsolescenza limitata della politica come un parametro controllabile dall’utente, permettendo alla generazione dei rollout, alla loro disseminazione e all’addestramento di sovrapporsi. Introduciamo un modello di capacità basato sulla sovrapposizione che mette in relazione tempo di addestramento, latenza di disseminazione e throughput dei rollout, producendo una regola pratica di provisioning per sostenere l’utilizzo del learner. Per mitigare i colli di bottiglia nella disseminazione e ridurre i costi, ECHO-2 impiega un broadcast pipeline assistito da peer e l’attivazione basata sul costo di worker eterogenei. Esperimenti sul post-training GRPO di modelli da 4B e 8B parametri, in regimi di banda wide-area reali, mostrano che ECHO-2 migliora significativamente l’efficienza dei costi preservando una ricompensa RL comparabile a baseline solide.

English

Reinforcement learning (RL) is a critical stage in post-training large language models (LLMs), involving repeated interaction between rollout generation, reward evaluation, and centralized learning. Distributing rollout execution offers opportunities to leverage more cost-efficient inference resources, but introduces challenges in wide-area coordination and policy dissemination. We present ECHO-2, a distributed RL framework for post-training with remote inference workers and non-negligible dissemination latency. ECHO-2 combines centralized learning with distributed rollouts and treats bounded policy staleness as a user-controlled parameter, enabling rollout generation, dissemination, and training to overlap. We introduce an overlap-based capacity model that relates training time, dissemination latency, and rollout throughput, yielding a practical provisioning rule for sustaining learner utilization. To mitigate dissemination bottlenecks and lower cost, ECHO-2 employs peer-assisted pipelined broadcast and cost-aware activation of heterogeneous workers. Experiments on GRPO post-training of 4B and 8B models under real wide-area bandwidth regimes show that ECHO-2 significantly improves cost efficiency while preserving RL reward comparable to strong baselines.

ECHO-2: Un Framework Distribuito su Larga Scala per il Deployment Efficiente di Apprendimento per Rinforzo

ECHO-2: A Large-Scale Distributed Rollout Framework for Cost-Efficient Reinforcement Learning

Abstract

Support