MARS-M : Quand la réduction de variance rencontre les matrices
MARS-M: When Variance Reduction Meets Matrices
October 20, 2025
papers.authors: Yifeng Liu, Angela Yuan, Quanquan Gu
cs.AI
papers.abstract
Les optimiseurs préconditionnés matriciels, tels que Muon, ont récemment démontré une efficacité supérieure aux optimiseurs scalaires pour l'entraînement de réseaux neuronaux à grande échelle, y compris les grands modèles de langage (LLM). Parallèlement, des benchmarks récents sur les optimiseurs pour le pré-entraînement de LLM ont montré que les techniques de réduction de variance comme MARS permettent des accélérations substantielles par rapport aux optimiseurs standards n'utilisant pas cette technique. Dans cet article, pour combiner les avantages des deux approches, nous présentons MARS-M, un nouvel optimiseur intégrant la technique de réduction de variance de MARS à Muon. Sous des conditions de régularité standard, nous démontrons que Muon-M converge vers un point stationnaire du premier ordre à un taux de \(\mathcal{O}(T^{-1/3})\), améliorant ainsi le taux \(\mathcal{O}(T^{-1/4})\) atteint par Muon. Nos résultats empiriques sur des tâches de modélisation du langage et de vision par ordinateur montrent que MARS-M produit systématiquement des pertes plus faibles et de meilleures performances sur divers benchmarks en aval. L'implémentation de MARS-M est disponible à l'adresse https://github.com/AGI-Arena/MARS/MARS_M.
English
Matrix-based preconditioned optimizers, such as Muon, have recently been
shown to be more efficient than scalar-based optimizers for training
large-scale neural networks, including large language models (LLMs). On the
other hand, recent benchmarks on optimizers for LLM pre-training have
demonstrated that variance-reduction techniques such as MARS can achieve
substantial speedups over standard optimizers that do not employ variance
reduction. In this paper, to achieve the best of both worlds, we introduce
MARS-M, a new optimizer that integrates the variance reduction technique in
MARS with Muon. Under standard regularity conditions, we prove that Muon-M
converges to a first-order stationary point at a rate of
mathcal{O}(T^{-1/3}), which improves upon
mathcal{O}(T^{-1/4}) rate attained by Muon. Our empirical results on
language modeling and computer vision tasks demonstrate that MARS-M
consistently yields lower losses and improved performance across various
downstream benchmarks. The implementation of MARS-M is available at
https://github.com/AGI-Arena/MARS/MARS_M.