Über die überraschende Wirksamkeit von Maskierungs-Updates in adaptiven Optimierern
On Surprising Effectiveness of Masking Updates in Adaptive Optimizers
February 17, 2026
papers.authors: Taejong Joo, Wenhan Xia, Cheolmin Kim, Ming Zhang, Eugene Ie
cs.AI
papers.abstract
Das Training großer Sprachmodelle (LLMs) stützt sich fast ausschließlich auf dichte adaptive Optimierer mit zunehmend ausgefeilten Preconditionern. Wir stellen dies infrage, indem wir zeigen, dass das zufällige Maskieren von Parameterupdates sehr effektiv sein kann: Eine maskierte Variante von RMSProp übertrifft durchgängig aktuelle state-of-the-art Optimierer. Unsere Analyse zeigt, dass die zufällige Maskierung eine krümmungsabhängige geometrische Regularisierung induziert, die den Optimierungspfad glättet. Aufbauend auf dieser Erkenntnis führen wir Momentum-aligned gradient masking (Magma) ein, das die maskierten Updates anhand der Momentum-Gradienten-Ausrichtung moduliert. Umfangreiche LLM-Pre-Training-Experimente belegen, dass Magma ein einfacher Drop-in-Ersatz für adaptive Optimierer ist, der konsistente Verbesserungen bei vernachlässigbarem Rechenaufwand bietet. Bemerkenswerterweise reduziert Magma für die Modellgröße 1B die Perplexität um über 19 % bzw. 9 % im Vergleich zu Adam und Muon.
English
Training large language models (LLMs) relies almost exclusively on dense adaptive optimizers with increasingly sophisticated preconditioners. We challenge this by showing that randomly masking parameter updates can be highly effective, with a masked variant of RMSProp consistently outperforming recent state-of-the-art optimizers. Our analysis reveals that the random masking induces a curvature-dependent geometric regularization that smooths the optimization trajectory. Motivated by this finding, we introduce Momentum-aligned gradient masking (Magma), which modulates the masked updates using momentum-gradient alignment. Extensive LLM pre-training experiments show that Magma is a simple drop-in replacement for adaptive optimizers with consistent gains and negligible computational overhead. Notably, for the 1B model size, Magma reduces perplexity by over 19\% and 9\% compared to Adam and Muon, respectively.