Sobre la Sorprendente Eficacia de las Actualizaciones Enmascaradas en Optimizadores Adaptativos
On Surprising Effectiveness of Masking Updates in Adaptive Optimizers
February 17, 2026
Autores: Taejong Joo, Wenhan Xia, Cheolmin Kim, Ming Zhang, Eugene Ie
cs.AI
Resumen
El entrenamiento de grandes modelos de lenguaje (LLM) se basa casi exclusivamente en optimizadores adaptativos densos con precondicionadores cada vez más sofisticados. Cuestionamos este enfoque demostrando que el enmascaramiento aleatorio de las actualizaciones de parámetros puede ser altamente efectivo, donde una variante enmascarada de RMSProp supera consistentemente a los optimizadores más avanzados recientes. Nuestro análisis revela que el enmascaramiento aleatorio induce una regularización geométrica dependiente de la curvatura que suaviza la trayectoria de optimización. Motivados por este hallazgo, presentamos el enmascaramiento de gradientes alineado con momento (Magma), que modula las actualizaciones enmascaradas utilizando la alineación momento-gradiente. Experimentos exhaustivos de preentrenamiento de LLM muestran que Magma es un reemplazo directo y simple para los optimizadores adaptativos, que ofrece ganancias consistentes con una sobrecarga computacional negligible. Notablemente, para el modelo de 1B de parámetros, Magma reduce la perplejidad en más de un 19% y un 9% en comparación con Adam y Muon, respectivamente.
English
Training large language models (LLMs) relies almost exclusively on dense adaptive optimizers with increasingly sophisticated preconditioners. We challenge this by showing that randomly masking parameter updates can be highly effective, with a masked variant of RMSProp consistently outperforming recent state-of-the-art optimizers. Our analysis reveals that the random masking induces a curvature-dependent geometric regularization that smooths the optimization trajectory. Motivated by this finding, we introduce Momentum-aligned gradient masking (Magma), which modulates the masked updates using momentum-gradient alignment. Extensive LLM pre-training experiments show that Magma is a simple drop-in replacement for adaptive optimizers with consistent gains and negligible computational overhead. Notably, for the 1B model size, Magma reduces perplexity by over 19\% and 9\% compared to Adam and Muon, respectively.