Mano: LLMトレーニングのための再起動多様体最適化
Mano: Restriking Manifold Optimization for LLM Training
January 30, 2026
著者: Yufei Gu, Zeke Xie
cs.AI
要旨
大規模言語モデル(LLM)は人工知能における重要な進展となっているが、その学習に必要なハードウェアと計算コストも著しく負担が大きい。現状の最先端オプティマイザにおいて、AdamWは対角曲率推定に依存し構造的性質を無視する一方、Muonは曲率情報を失う代償として大域的なスペクトル正規化を適用する。本研究では、従来の多様体最適化手法が大規模モデル最適化における性能の低さからほぼ顧みられてこなかった状況を再検討し、両オプティマイザの限界を同時に解決し得る多様体最適化手法をLLM学習に適用する。モデルパラメータの接空間へ運動量を投影し、回転的斜交多様体上で制約するという革新的アプローチにより、多様体最適化と現代的なオプティマイザの性能差を初めて埋める新規で強力かつ効率的なオプティマイザ**Mano**を提案する。LLaMAおよびQwen3モデルを用いた大規模実験により、Manoがメモリ消費量と計算複雑性の両面でそれぞれ優れつつ、AdamWおよびMuonを一貫して有意に上回る性能を示すことを実証し、空間・時間効率におけるパレートフロンティアの拡大を示唆する。
English
While large language models (LLMs) have emerged as a significant advancement in artificial intelligence, the hardware and computational costs for training LLMs are also significantly burdensome. Among the state-of-the-art optimizers, AdamW relies on diagonal curvature estimates and ignores structural properties, while Muon applies global spectral normalization at the expense of losing curvature information. In this study, we restriked manifold optimization methods for training LLMs, which may address both optimizers' limitations, while conventional manifold optimization methods have been largely overlooked due to the poor performance in large-scale model optimization. By innovatively projecting the momentum onto the tangent space of model parameters and constraining it on a rotational Oblique manifold, we propose a novel, powerful, and efficient optimizer **Mano** that is the first to bridge the performance gap between manifold optimization and modern optimizers. Extensive experiments on the LLaMA and Qwen3 models demonstrate that Mano consistently and significantly outperforms AdamW and Muon even with less memory consumption and computational complexity, respectively, suggesting an expanded Pareto frontier in terms of space and time efficiency.