Mano: Restriking Manifold Optimization für das Training großer Sprachmodelle
Mano: Restriking Manifold Optimization for LLM Training
January 30, 2026
papers.authors: Yufei Gu, Zeke Xie
cs.AI
papers.abstract
Während große Sprachmodelle (LLMs) einen bedeutenden Fortschritt in der künstlichen Intelligenz darstellen, sind die Hardware- und Rechenkosten für das Training von LLMs ebenfalls erheblich belastend. Unter den modernsten Optimierern verlässt sich AdamW auf diagonale Krümmungsschätzungen und ignoriert strukturelle Eigenschaften, während Muon globale spektrale Normalisierung auf Kosten des Verlusts von Krümmungsinformationen anwendet. In dieser Studie untersuchen wir Methoden der Mannigfaltigkeitsoptimierung für das Training von LLMs neu, welche die Limitierungen beider Optimierer adressieren könnten, obwohl konventionelle Methoden der Mannigfaltigkeitsoptimierung aufgrund ihrer schwachen Leistung bei der Optimierung großer Modelle weitgehend unbeachtet geblieben sind. Durch innovative Projektion des Momentums auf den Tangentialraum der Modellparameter und dessen Beschränkung auf eine rotatorische Oblique-Mannigfaltigkeit schlagen wir einen neuartigen, leistungsstarken und effizienten Optimierer **Mano** vor, der als erster die Leistungslücke zwischen Mannigfaltigkeitsoptimierung und modernen Optimierern schließt. Umfangreiche Experimente mit den Modellen LLaMA und Qwen3 zeigen, dass Mano AdamW und Muon konsistent und signifikant übertrifft, und dies sogar bei geringerem Speicherverbrauch bzw. geringerer Rechenkomplexität, was auf eine erweiterte Pareto-Front in Bezug auf Raum- und Zeiteffizienz hindeutet.
English
While large language models (LLMs) have emerged as a significant advancement in artificial intelligence, the hardware and computational costs for training LLMs are also significantly burdensome. Among the state-of-the-art optimizers, AdamW relies on diagonal curvature estimates and ignores structural properties, while Muon applies global spectral normalization at the expense of losing curvature information. In this study, we restriked manifold optimization methods for training LLMs, which may address both optimizers' limitations, while conventional manifold optimization methods have been largely overlooked due to the poor performance in large-scale model optimization. By innovatively projecting the momentum onto the tangent space of model parameters and constraining it on a rotational Oblique manifold, we propose a novel, powerful, and efficient optimizer **Mano** that is the first to bridge the performance gap between manifold optimization and modern optimizers. Extensive experiments on the LLaMA and Qwen3 models demonstrate that Mano consistently and significantly outperforms AdamW and Muon even with less memory consumption and computational complexity, respectively, suggesting an expanded Pareto frontier in terms of space and time efficiency.