Sobre a Eficácia Surpreendente das Atualizações de Mascaramento em Otimizadores Adaptativos

Resumo

O treinamento de grandes modelos de linguagem (LLMs) depende quase exclusivamente de otimizadores adaptativos densos com precondicionadores cada vez mais sofisticados. Nós contestamos este paradigma ao demonstrar que a aplicação aleatória de máscaras às atualizações de parâmetros pode ser altamente eficaz, com uma variante mascarada do RMSProp superando consistentemente otimizadores recentes de última geração. Nossa análise revela que o mascaramento aleatório induz uma regularização geométrica dependente da curvatura que suaviza a trajetória de otimização. Motivados por esta descoberta, introduzimos o Mascaramento de Gradiente Alinhado ao Momentum (Magma), que modula as atualizações mascaradas usando o alinhamento momentum-gradiente. Extensos experimentos de pré-treinamento de LLMs mostram que o Magma é um substituto simples e direto para otimizadores adaptativos, proporcionando ganhos consistentes com sobrecarga computacional insignificante. Notavelmente, para o tamanho de modelo de 1B, o Magma reduz a perplexidade em mais de 19% e 9% em comparação com Adam e Muon, respectivamente.

English

Training large language models (LLMs) relies almost exclusively on dense adaptive optimizers with increasingly sophisticated preconditioners. We challenge this by showing that randomly masking parameter updates can be highly effective, with a masked variant of RMSProp consistently outperforming recent state-of-the-art optimizers. Our analysis reveals that the random masking induces a curvature-dependent geometric regularization that smooths the optimization trajectory. Motivated by this finding, we introduce Momentum-aligned gradient masking (Magma), which modulates the masked updates using momentum-gradient alignment. Extensive LLM pre-training experiments show that Magma is a simple drop-in replacement for adaptive optimizers with consistent gains and negligible computational overhead. Notably, for the 1B model size, Magma reduces perplexity by over 19\% and 9\% compared to Adam and Muon, respectively.

Sobre a Eficácia Surpreendente das Atualizações de Mascaramento em Otimizadores Adaptativos

On Surprising Effectiveness of Masking Updates in Adaptive Optimizers

Resumo

Support