MARS-M: Quando la riduzione della varianza incontra le matrici

Abstract

Gli ottimizzatori precondizionati basati su matrici, come Muon, hanno recentemente dimostrato di essere più efficienti degli ottimizzatori scalari per l'addestramento di reti neurali su larga scala, inclusi i grandi modelli linguistici (LLM). D'altro canto, recenti benchmark sugli ottimizzatori per il pre-addestramento di LLM hanno evidenziato che tecniche di riduzione della varianza come MARS possono ottenere accelerazioni sostanziali rispetto agli ottimizzatori standard che non impiegano tale riduzione. In questo articolo, per unire i vantaggi di entrambi gli approcci, introduciamo MARS-M, un nuovo ottimizzatore che integra la tecnica di riduzione della varianza di MARS con Muon. Sotto le consuete condizioni di regolarità, dimostriamo che Muon-M converge verso un punto stazionario del primo ordine con un tasso di \(\mathcal{O}(T^{-1/3})\), migliorando il tasso \(\mathcal{O}(T^{-1/4})\) raggiunto da Muon. I nostri risultati empirici su attività di modellazione linguistica e visione artificiale mostrano che MARS-M produce costantemente loss inferiori e prestazioni migliorate su vari benchmark downstream. L'implementazione di MARS-M è disponibile all'indirizzo https://github.com/AGI-Arena/MARS/MARS_M.

English

Matrix-based preconditioned optimizers, such as Muon, have recently been shown to be more efficient than scalar-based optimizers for training large-scale neural networks, including large language models (LLMs). On the other hand, recent benchmarks on optimizers for LLM pre-training have demonstrated that variance-reduction techniques such as MARS can achieve substantial speedups over standard optimizers that do not employ variance reduction. In this paper, to achieve the best of both worlds, we introduce MARS-M, a new optimizer that integrates the variance reduction technique in MARS with Muon. Under standard regularity conditions, we prove that Muon-M converges to a first-order stationary point at a rate of mathcal{O}(T^{-1/3}), which improves upon mathcal{O}(T^{-1/4}) rate attained by Muon. Our empirical results on language modeling and computer vision tasks demonstrate that MARS-M consistently yields lower losses and improved performance across various downstream benchmarks. The implementation of MARS-M is available at https://github.com/AGI-Arena/MARS/MARS_M.

MARS-M: Quando la riduzione della varianza incontra le matrici

MARS-M: When Variance Reduction Meets Matrices

Abstract

Support