Eficiência Prática do Muon para Pré-treinamento

Resumo

Demonstramos que o Muon, a instanciação mais simples de um otimizador de segunda ordem, expande explicitamente a fronteira de Pareto em relação ao AdamW na relação entre tempo de computação e desempenho. Descobrimos que o Muon é mais eficaz do que o AdamW em manter a eficiência de dados com tamanhos de lote grandes, muito além do chamado tamanho crítico de lote, enquanto mantém a eficiência computacional, permitindo assim um treinamento mais econômico. Estudamos a combinação do Muon com a parametrização de atualização máxima (muP) para transferência eficiente de hiperparâmetros e apresentamos um algoritmo telescópico simples que leva em conta todas as fontes de erro no muP, introduzindo apenas um modesto custo adicional de recursos. Validamos nossas descobertas por meio de extensos experimentos com modelos de até quatro bilhões de parâmetros e análises de ablação na distribuição de dados e na arquitetura.

English

We demonstrate that Muon, the simplest instantiation of a second-order optimizer, explicitly expands the Pareto frontier over AdamW on the compute-time tradeoff. We find that Muon is more effective than AdamW in retaining data efficiency at large batch sizes, far beyond the so-called critical batch size, while remaining computationally efficient, thus enabling more economical training. We study the combination of Muon and the maximal update parameterization (muP) for efficient hyperparameter transfer and present a simple telescoping algorithm that accounts for all sources of error in muP while introducing only a modest overhead in resources. We validate our findings through extensive experiments with model sizes up to four billion parameters and ablations on the data distribution and architecture.

Eficiência Prática do Muon para Pré-treinamento

Practical Efficiency of Muon for Pretraining

Resumo

Support