Mano : Optimisation sur la variété de restriking pour l'entraînement de LLM

Résumé

Si les grands modèles de langage (LLM) représentent une avancée majeure en intelligence artificielle, leurs coûts matériels et computationnels d'entraînement restent très lourds. Parmi les optimiseurs de pointe, AdamW s'appuie sur des estimations de courbure diagonale et ignore les propriétés structurelles, tandis que Muon applique une normalisation spectrale globale au prix d'une perte d'information sur la courbure. Dans cette étude, nous réexaminons les méthodes d'optimisation sur variétés pour l'entraînement des LLM, susceptibles de pallier les limites de ces deux approches, alors que les méthodes conventionnelles d'optimisation sur variétés ont été largement négligées en raison de leurs médiocres performances sur les modèles à grande échelle. En projetant innovamment la quantité de mouvement dans l'espace tangent des paramètres du modèle et en la contraignant sur une variété oblique rotationnelle, nous proposons **Mano**, un optimiseur novateur, puissant et efficace, premier à combler l'écart de performance entre l'optimisation sur variétés et les optimiseurs modernes. Des expériences approfondies sur les modèles LLaMA et Qwen3 montrent que Mano surpasse constamment et significativement AdamW et Muon, avec respectivement une consommation mémoire et une complexité computationnelle réduites, suggérant un élargissement de la frontière de Pareto en termes d'efficacité spatio-temporelle.

English

While large language models (LLMs) have emerged as a significant advancement in artificial intelligence, the hardware and computational costs for training LLMs are also significantly burdensome. Among the state-of-the-art optimizers, AdamW relies on diagonal curvature estimates and ignores structural properties, while Muon applies global spectral normalization at the expense of losing curvature information. In this study, we restriked manifold optimization methods for training LLMs, which may address both optimizers' limitations, while conventional manifold optimization methods have been largely overlooked due to the poor performance in large-scale model optimization. By innovatively projecting the momentum onto the tangent space of model parameters and constraining it on a rotational Oblique manifold, we propose a novel, powerful, and efficient optimizer **Mano** that is the first to bridge the performance gap between manifold optimization and modern optimizers. Extensive experiments on the LLaMA and Qwen3 models demonstrate that Mano consistently and significantly outperforms AdamW and Muon even with less memory consumption and computational complexity, respectively, suggesting an expanded Pareto frontier in terms of space and time efficiency.

Mano : Optimisation sur la variété de restriking pour l'entraînement de LLM

Mano: Restriking Manifold Optimization for LLM Training

Résumé

Support