ChatPaper.aiChatPaper

Sur l'efficacité surprenante des mises à jour masquées dans les optimiseurs adaptatifs

On Surprising Effectiveness of Masking Updates in Adaptive Optimizers

February 17, 2026
papers.authors: Taejong Joo, Wenhan Xia, Cheolmin Kim, Ming Zhang, Eugene Ie
cs.AI

papers.abstract

L'entraînement des grands modèles de langage (LLM) repose presque exclusivement sur des optimiseurs adaptatifs denses avec des préconditionneurs de plus en plus sophistiqués. Nous remettons cela en question en démontrant que le masquage aléatoire des mises à jour des paramètres peut être très efficace, une variante masquée de RMSProp surpassant constamment les optimiseurs récents les plus performants. Notre analyse révèle que le masquage aléatoire induit une régularisation géométrique dépendante de la courbure qui lisse la trajectoire d'optimisation. Motivés par cette découverte, nous introduisons le masquage de gradient aligné sur le momentum (Magma), qui module les mises à jour masquées en utilisant l'alignement momentum-gradient. Des expériences approfondies de pré-entraînement de LLM montrent que Magma est un remplacement simple et direct pour les optimiseurs adaptatifs, apportant des gains constants avec une surcharge computationnelle négligeable. Notamment, pour la taille de modèle de 1 milliard de paramètres, Magma réduit la perplexité de plus de 19 % et 9 % par rapport à Adam et Muon, respectivement.
English
Training large language models (LLMs) relies almost exclusively on dense adaptive optimizers with increasingly sophisticated preconditioners. We challenge this by showing that randomly masking parameter updates can be highly effective, with a masked variant of RMSProp consistently outperforming recent state-of-the-art optimizers. Our analysis reveals that the random masking induces a curvature-dependent geometric regularization that smooths the optimization trajectory. Motivated by this finding, we introduce Momentum-aligned gradient masking (Magma), which modulates the masked updates using momentum-gradient alignment. Extensive LLM pre-training experiments show that Magma is a simple drop-in replacement for adaptive optimizers with consistent gains and negligible computational overhead. Notably, for the 1B model size, Magma reduces perplexity by over 19\% and 9\% compared to Adam and Muon, respectively.
PDF51February 19, 2026