Treinamento de Modelos de Linguagem com Comunicação Eficiente Escala de Forma Confiável e Robusta: Leis de Escalonamento para DiLoCo
Communication-Efficient Language Model Training Scales Reliably and Robustly: Scaling Laws for DiLoCo
March 12, 2025
Autores: Zachary Charles, Gabriel Teston, Lucio Dery, Keith Rush, Nova Fallen, Zachary Garrett, Arthur Szlam, Arthur Douillard
cs.AI
Resumo
À medida que escalamos para modelos de aprendizado de máquina cada vez maiores, as demandas frequentes de sincronização inerentes às abordagens de paralelismo de dados criam desacelerações significativas, representando um desafio crítico para uma maior escalabilidade. Trabalhos recentes desenvolveram uma abordagem (DiLoCo) que relaxa as demandas de sincronização sem comprometer a qualidade do modelo. No entanto, esses estudos não analisam cuidadosamente como o comportamento do DiLoCo muda com o tamanho do modelo. Neste trabalho, estudamos o comportamento das leis de escalabilidade do DiLoCo ao treinar LLMs (Large Language Models) sob um orçamento fixo de computação. Focamos em como fatores algorítmicos, incluindo o número de réplicas do modelo, hiperparâmetros e orçamento de tokens, afetam o treinamento de maneiras que podem ser previstas com precisão por meio de leis de escalabilidade. Descobrimos que o DiLoCo escala de forma previsível e robusta com o tamanho do modelo. Quando bem ajustado, o DiLoCo escala melhor do que o treinamento com paralelismo de dados em relação ao tamanho do modelo, e pode superar o treinamento com paralelismo de dados mesmo em tamanhos pequenos de modelo. Nossos resultados demonstram um conjunto mais amplo de benefícios do DiLoCo do que o documentado anteriormente, incluindo tamanhos de lote ótimos maiores, melhoria na generalização em tarefas subsequentes com a escala e redução da perda de avaliação para um orçamento fixo de tokens.
English
As we scale to more massive machine learning models, the frequent
synchronization demands inherent in data-parallel approaches create significant
slowdowns, posing a critical challenge to further scaling. Recent work develops
an approach (DiLoCo) that relaxes synchronization demands without compromising
model quality. However, these works do not carefully analyze how DiLoCo's
behavior changes with model size. In this work, we study the scaling law
behavior of DiLoCo when training LLMs under a fixed compute budget. We focus on
how algorithmic factors, including number of model replicas, hyperparameters,
and token budget affect training in ways that can be accurately predicted via
scaling laws. We find that DiLoCo scales both predictably and robustly with
model size. When well-tuned, DiLoCo scales better than data-parallel training
with model size, and can outperform data-parallel training even at small model
sizes. Our results showcase a more general set of benefits of DiLoCo than
previously documented, including increased optimal batch sizes, improved
downstream generalization with scale, and improved evaluation loss for a fixed
token budget.Summary
AI-Generated Summary