Treinamento de Modelos de Linguagem com Comunicação Eficiente Escala de Forma Confiável e Robusta: Leis de Escalonamento para DiLoCo

Resumo

À medida que escalamos para modelos de aprendizado de máquina cada vez maiores, as demandas frequentes de sincronização inerentes às abordagens de paralelismo de dados criam desacelerações significativas, representando um desafio crítico para uma maior escalabilidade. Trabalhos recentes desenvolveram uma abordagem (DiLoCo) que relaxa as demandas de sincronização sem comprometer a qualidade do modelo. No entanto, esses estudos não analisam cuidadosamente como o comportamento do DiLoCo muda com o tamanho do modelo. Neste trabalho, estudamos o comportamento das leis de escalabilidade do DiLoCo ao treinar LLMs (Large Language Models) sob um orçamento fixo de computação. Focamos em como fatores algorítmicos, incluindo o número de réplicas do modelo, hiperparâmetros e orçamento de tokens, afetam o treinamento de maneiras que podem ser previstas com precisão por meio de leis de escalabilidade. Descobrimos que o DiLoCo escala de forma previsível e robusta com o tamanho do modelo. Quando bem ajustado, o DiLoCo escala melhor do que o treinamento com paralelismo de dados em relação ao tamanho do modelo, e pode superar o treinamento com paralelismo de dados mesmo em tamanhos pequenos de modelo. Nossos resultados demonstram um conjunto mais amplo de benefícios do DiLoCo do que o documentado anteriormente, incluindo tamanhos de lote ótimos maiores, melhoria na generalização em tarefas subsequentes com a escala e redução da perda de avaliação para um orçamento fixo de tokens.

English

As we scale to more massive machine learning models, the frequent synchronization demands inherent in data-parallel approaches create significant slowdowns, posing a critical challenge to further scaling. Recent work develops an approach (DiLoCo) that relaxes synchronization demands without compromising model quality. However, these works do not carefully analyze how DiLoCo's behavior changes with model size. In this work, we study the scaling law behavior of DiLoCo when training LLMs under a fixed compute budget. We focus on how algorithmic factors, including number of model replicas, hyperparameters, and token budget affect training in ways that can be accurately predicted via scaling laws. We find that DiLoCo scales both predictably and robustly with model size. When well-tuned, DiLoCo scales better than data-parallel training with model size, and can outperform data-parallel training even at small model sizes. Our results showcase a more general set of benefits of DiLoCo than previously documented, including increased optimal batch sizes, improved downstream generalization with scale, and improved evaluation loss for a fixed token budget.

Treinamento de Modelos de Linguagem com Comunicação Eficiente Escala de Forma Confiável e Robusta: Leis de Escalonamento para DiLoCo

Communication-Efficient Language Model Training Scales Reliably and Robustly: Scaling Laws for DiLoCo

Resumo

Support