ChatPaper.aiChatPaper

ROOT: ニューラルネットワーク学習のためのロバスト直交化オプティマイザ

ROOT: Robust Orthogonalized Optimizer for Neural Network Training

November 25, 2025
著者: Wei He, Kai Han, Hang Zhou, Hanting Chen, Zhicheng Liu, Xinghao Chen, Yunhe Wang
cs.AI

要旨

大規模言語モデル(LLM)の最適化は、モデル規模の拡大に伴ってアルゴリズムの不正確さや訓練の不安定性への感受性が増幅されることから、特に重要な課題となっている。オプティマイザにおける最近の進歩は、運動量直交化を通じて収束効率を改善してきたが、直交化精度における次元的な脆弱性と、外れ値誘発ノイズへの耐性の弱さという二つの頑健性に関する限界に直面している。これらの課題に対処するため、我々は二重の頑健性メカニズムにより訓練安定性を高める頑健直交化オプティマイザ「ROOT」を提案する。第一に、特定の行列サイズに合わせた細粒度係数を用いた適応的ニュートン反復法による次元頑健な直交化スキームを開発し、多様なアーキテクチャ構成にわたって一貫した精度を確保する。第二に、意味のある勾配方向を保持しつつ外れ値ノイズを抑制する近接最適化による最適化頑健フレームワークを導入する。大規模な実験により、ROOTがノイズの多い非凸環境において特に優れ、MuonやAdamベースのオプティマイザと比較して大幅に改善された頑健性、高速な収束、優れた最終性能を達成することを実証した。本研究は、現代的な大規模モデル訓練の複雑性に対処可能な、頑健かつ高精度なオプティマイザ開発の新たなパラダイムを確立する。コードはhttps://github.com/huawei-noah/noah-research/tree/master/ROOTで公開予定である。
English
The optimization of large language models (LLMs) remains a critical challenge, particularly as model scaling exacerbates sensitivity to algorithmic imprecision and training instability. Recent advances in optimizers have improved convergence efficiency through momentum orthogonalization, but suffer from two key robustness limitations: dimensional fragility in orthogonalization precision and vulnerability to outlier-induced noise. To address these robustness challenges, we introduce ROOT, a Robust Orthogonalized Optimizer that enhances training stability through dual robustness mechanisms. First, we develop a dimension-robust orthogonalization scheme using adaptive Newton iterations with fine-grained coefficients tailored to specific matrix sizes, ensuring consistent precision across diverse architectural configurations. Second, we introduce an optimization-robust framework via proximal optimization that suppresses outlier noise while preserving meaningful gradient directions. Extensive experiments demonstrate that ROOT achieves significantly improved robustness, with faster convergence and superior final performance compared to both Muon and Adam-based optimizers, particularly in noisy and non-convex scenarios. Our work establishes a new paradigm for developing robust and precise optimizers capable of handling the complexities of modern large-scale model training. The code will be available at https://github.com/huawei-noah/noah-research/tree/master/ROOT.
PDF1654December 1, 2025