ECHO-2: Uma Estrutura de Implantação em Larga Escala e Distribuída para Aprendizagem por Reforço de Baixo Custo

Resumo

O aprendizado por reforço (RL) é uma etapa crítica no pós-treinamento de grandes modelos de linguagem (LLMs), envolvendo a interação repetida entre a geração de rollouts, avaliação de recompensa e aprendizado centralizado. Distribuir a execução de rollouts oferece oportunidades para aproveitar recursos de inferência mais econômicos, mas introduz desafios na coordenação de área ampla e na disseminação de políticas. Apresentamos o ECHO-2, uma estrutura de RL distribuída para pós-treinamento com workers de inferência remotos e latência de disseminação não negligenciável. O ECHO-2 combina aprendizado centralizado com rollouts distribuídos e trata a obsolescência limitada da política como um parâmetro controlado pelo usuário, permitindo que a geração de rollouts, a disseminação e o treinamento se sobreponham. Introduzimos um modelo de capacidade baseado em sobreposição que relaciona o tempo de treinamento, a latência de disseminação e a taxa de transferência de rollouts, resultando em uma regra prática de provisionamento para sustentar a utilização do aprendiz. Para mitigar gargalos de disseminação e reduzir custos, o ECHO-2 emprega broadcast em pipeline com assistência de pares e ativação consciente do custo de workers heterogêneos. Experimentos no pós-treinamento GRPO de modelos de 4B e 8B sob regimes de banda larga de área ampla real mostram que o ECHO-2 melhora significativamente a eficiência de custo, preservando uma recompensa de RL comparável a bases de referência sólidas.

English

Reinforcement learning (RL) is a critical stage in post-training large language models (LLMs), involving repeated interaction between rollout generation, reward evaluation, and centralized learning. Distributing rollout execution offers opportunities to leverage more cost-efficient inference resources, but introduces challenges in wide-area coordination and policy dissemination. We present ECHO-2, a distributed RL framework for post-training with remote inference workers and non-negligible dissemination latency. ECHO-2 combines centralized learning with distributed rollouts and treats bounded policy staleness as a user-controlled parameter, enabling rollout generation, dissemination, and training to overlap. We introduce an overlap-based capacity model that relates training time, dissemination latency, and rollout throughput, yielding a practical provisioning rule for sustaining learner utilization. To mitigate dissemination bottlenecks and lower cost, ECHO-2 employs peer-assisted pipelined broadcast and cost-aware activation of heterogeneous workers. Experiments on GRPO post-training of 4B and 8B models under real wide-area bandwidth regimes show that ECHO-2 significantly improves cost efficiency while preserving RL reward comparable to strong baselines.

ECHO-2: Uma Estrutura de Implantação em Larga Escala e Distribuída para Aprendizagem por Reforço de Baixo Custo

ECHO-2: A Large-Scale Distributed Rollout Framework for Cost-Efficient Reinforcement Learning

Resumo

Support