MARS-M : Quand la réduction de variance rencontre les matrices

papers.abstract

Les optimiseurs préconditionnés matriciels, tels que Muon, ont récemment démontré une efficacité supérieure aux optimiseurs scalaires pour l'entraînement de réseaux neuronaux à grande échelle, y compris les grands modèles de langage (LLM). Parallèlement, des benchmarks récents sur les optimiseurs pour le pré-entraînement de LLM ont montré que les techniques de réduction de variance comme MARS permettent des accélérations substantielles par rapport aux optimiseurs standards n'utilisant pas cette technique. Dans cet article, pour combiner les avantages des deux approches, nous présentons MARS-M, un nouvel optimiseur intégrant la technique de réduction de variance de MARS à Muon. Sous des conditions de régularité standard, nous démontrons que Muon-M converge vers un point stationnaire du premier ordre à un taux de \(\mathcal{O}(T^{-1/3})\), améliorant ainsi le taux \(\mathcal{O}(T^{-1/4})\) atteint par Muon. Nos résultats empiriques sur des tâches de modélisation du langage et de vision par ordinateur montrent que MARS-M produit systématiquement des pertes plus faibles et de meilleures performances sur divers benchmarks en aval. L'implémentation de MARS-M est disponible à l'adresse https://github.com/AGI-Arena/MARS/MARS_M.

English

Matrix-based preconditioned optimizers, such as Muon, have recently been shown to be more efficient than scalar-based optimizers for training large-scale neural networks, including large language models (LLMs). On the other hand, recent benchmarks on optimizers for LLM pre-training have demonstrated that variance-reduction techniques such as MARS can achieve substantial speedups over standard optimizers that do not employ variance reduction. In this paper, to achieve the best of both worlds, we introduce MARS-M, a new optimizer that integrates the variance reduction technique in MARS with Muon. Under standard regularity conditions, we prove that Muon-M converges to a first-order stationary point at a rate of mathcal{O}(T^{-1/3}), which improves upon mathcal{O}(T^{-1/4}) rate attained by Muon. Our empirical results on language modeling and computer vision tasks demonstrate that MARS-M consistently yields lower losses and improved performance across various downstream benchmarks. The implementation of MARS-M is available at https://github.com/AGI-Arena/MARS/MARS_M.

MARS-M : Quand la réduction de variance rencontre les matrices

MARS-M: When Variance Reduction Meets Matrices

papers.abstract

Support