Sull’Efficacia Sorprendente degli Aggiornamenti di Mascheramento negli Ottimizzatori Adattivi

Abstract

L'addestramento di grandi modelli linguistici (LLM) si basa quasi esclusivamente su ottimizzatori adattivi densi con precondizionatori sempre più sofisticati. Noi contestiamo questo approccio dimostrando che l'applicazione casuale di maschere agli aggiornamenti dei parametri può essere estremamente efficace, con una variante mascherata di RMSProp che supera costantemente i recenti ottimizzatori all'avanguardia. La nostra analisi rivela che il mascheramento casuale induce una regolarizzazione geometrica dipendente dalla curvatura che appiana la traiettoria di ottimizzazione. Sulla base di questa scoperta, introduciamo il *Momentum-aligned gradient masking* (Magma), che modula gli aggiornamenti mascherati utilizzando l'allineamento momento-gradiente. Esperimenti estesi di pre-addestramento di LLM mostrano che Magma è una semplice sostituzione *drop-in* per gli ottimizzatori adattivi, con guadagni consistenti e un overhead computazionale trascurabile. In particolare, per modelli di dimensione 1B, Magma riduce la perplessità di oltre il 19% e il 9% rispetto rispettivamente ad Adam e Muon.

English

Training large language models (LLMs) relies almost exclusively on dense adaptive optimizers with increasingly sophisticated preconditioners. We challenge this by showing that randomly masking parameter updates can be highly effective, with a masked variant of RMSProp consistently outperforming recent state-of-the-art optimizers. Our analysis reveals that the random masking induces a curvature-dependent geometric regularization that smooths the optimization trajectory. Motivated by this finding, we introduce Momentum-aligned gradient masking (Magma), which modulates the masked updates using momentum-gradient alignment. Extensive LLM pre-training experiments show that Magma is a simple drop-in replacement for adaptive optimizers with consistent gains and negligible computational overhead. Notably, for the 1B model size, Magma reduces perplexity by over 19\% and 9\% compared to Adam and Muon, respectively.

Sull’Efficacia Sorprendente degli Aggiornamenti di Mascheramento negli Ottimizzatori Adattivi

On Surprising Effectiveness of Masking Updates in Adaptive Optimizers

Abstract

Support