О поразительной эффективности маскирования обновлений в адаптивных оптимизаторах
On Surprising Effectiveness of Masking Updates in Adaptive Optimizers
February 17, 2026
Авторы: Taejong Joo, Wenhan Xia, Cheolmin Kim, Ming Zhang, Eugene Ie
cs.AI
Аннотация
Обучение больших языковых моделей (LLM) почти исключительно опирается на плотные адаптивные оптимизаторы со все более сложными прекондиционерами. Мы оспариваем этот подход, демонстрируя, что случайное маскирование обновлений параметров может быть высокоэффективным: маскированный вариант RMSProp стабильно превосходит последние современные оптимизаторы. Наш анализ показывает, что случайное маскирование индуцирует геометрическую регуляризацию, зависящую от кривизны, которая сглаживает траекторию оптимизации. Мотивированные этим открытием, мы представляем маскирование градиентов, согласованное с моментом (Magma), которое модулирует маскированные обновления с использованием согласования момента и градиента. Многочисленные эксперименты по предварительному обучению LLM показывают, что Magma является простой заменой адаптивных оптимизаторов, обеспечивая стабильное улучшение с пренебрежимо малыми вычислительными затратами. Примечательно, что для модели размером 1B Magma снижает перплексию более чем на 19% и 9% по сравнению с Adam и Muon соответственно.
English
Training large language models (LLMs) relies almost exclusively on dense adaptive optimizers with increasingly sophisticated preconditioners. We challenge this by showing that randomly masking parameter updates can be highly effective, with a masked variant of RMSProp consistently outperforming recent state-of-the-art optimizers. Our analysis reveals that the random masking induces a curvature-dependent geometric regularization that smooths the optimization trajectory. Motivated by this finding, we introduce Momentum-aligned gradient masking (Magma), which modulates the masked updates using momentum-gradient alignment. Extensive LLM pre-training experiments show that Magma is a simple drop-in replacement for adaptive optimizers with consistent gains and negligible computational overhead. Notably, for the 1B model size, Magma reduces perplexity by over 19\% and 9\% compared to Adam and Muon, respectively.