Over de Verrassende Effectiviteit van Maskerupdates in Adaptieve Optimalisatiealgoritmen

Samenvatting

Het trainen van grote taalmmodellen (LLM's) berust vrijwel uitsluitend op dense adaptieve optimalisatiemethoden met steeds geavanceerdere preconditioners. Wij tonen aan dat deze aanpak niet vanzelfsprekend is door te demonstreren dat het willekeurig maskeren van parameterupdates zeer effectief kan zijn: een gemaskeerde variant van RMSProp overtreft consistent recente state-of-the-art optimalisatiemethoden. Onze analyse onthult dat het willekeurig maskeren een kromming-afhankelijke geometrische regularisatie induceert die het optimalisatietraject gladder maakt. Op basis van dit inzicht introduceren we Momentum-uitgelijnde gradientmaskering (Magma), waarbij de gemaskeerde updates worden gemoduleerd aan de hand van momentum-gradient-uitlijning. Uitgebreide experimenten met het voor-trainen van LLM's tonen aan dat Magma een eenvoudige, directe vervanging is voor adaptieve optimalisatiemethoden, met consistente verbeteringen en verwaarloosbare rekenkosten. Opmerkelijk is dat voor het 1B-modelformaat Magma de perplexiteit met meer dan 19% respectievelijk 9% reduceert ten opzichte van Adam en Muon.

English

Training large language models (LLMs) relies almost exclusively on dense adaptive optimizers with increasingly sophisticated preconditioners. We challenge this by showing that randomly masking parameter updates can be highly effective, with a masked variant of RMSProp consistently outperforming recent state-of-the-art optimizers. Our analysis reveals that the random masking induces a curvature-dependent geometric regularization that smooths the optimization trajectory. Motivated by this finding, we introduce Momentum-aligned gradient masking (Magma), which modulates the masked updates using momentum-gradient alignment. Extensive LLM pre-training experiments show that Magma is a simple drop-in replacement for adaptive optimizers with consistent gains and negligible computational overhead. Notably, for the 1B model size, Magma reduces perplexity by over 19\% and 9\% compared to Adam and Muon, respectively.

Over de Verrassende Effectiviteit van Maskerupdates in Adaptieve Optimalisatiealgoritmen

On Surprising Effectiveness of Masking Updates in Adaptive Optimizers

Samenvatting

Support