О поразительной эффективности маскирования обновлений в адаптивных оптимизаторах

Аннотация

Обучение больших языковых моделей (LLM) почти исключительно опирается на плотные адаптивные оптимизаторы со все более сложными прекондиционерами. Мы оспариваем этот подход, демонстрируя, что случайное маскирование обновлений параметров может быть высокоэффективным: маскированный вариант RMSProp стабильно превосходит последние современные оптимизаторы. Наш анализ показывает, что случайное маскирование индуцирует геометрическую регуляризацию, зависящую от кривизны, которая сглаживает траекторию оптимизации. Мотивированные этим открытием, мы представляем маскирование градиентов, согласованное с моментом (Magma), которое модулирует маскированные обновления с использованием согласования момента и градиента. Многочисленные эксперименты по предварительному обучению LLM показывают, что Magma является простой заменой адаптивных оптимизаторов, обеспечивая стабильное улучшение с пренебрежимо малыми вычислительными затратами. Примечательно, что для модели размером 1B Magma снижает перплексию более чем на 19% и 9% по сравнению с Adam и Muon соответственно.

English

Training large language models (LLMs) relies almost exclusively on dense adaptive optimizers with increasingly sophisticated preconditioners. We challenge this by showing that randomly masking parameter updates can be highly effective, with a masked variant of RMSProp consistently outperforming recent state-of-the-art optimizers. Our analysis reveals that the random masking induces a curvature-dependent geometric regularization that smooths the optimization trajectory. Motivated by this finding, we introduce Momentum-aligned gradient masking (Magma), which modulates the masked updates using momentum-gradient alignment. Extensive LLM pre-training experiments show that Magma is a simple drop-in replacement for adaptive optimizers with consistent gains and negligible computational overhead. Notably, for the 1B model size, Magma reduces perplexity by over 19\% and 9\% compared to Adam and Muon, respectively.

О поразительной эффективности маскирования обновлений в адаптивных оптимизаторах

On Surprising Effectiveness of Masking Updates in Adaptive Optimizers

Аннотация

Support