ChatPaper.aiChatPaper

ROOT: 신경망 훈련을 위한 강건한 직교화 최적화 알고리즘

ROOT: Robust Orthogonalized Optimizer for Neural Network Training

November 25, 2025
저자: Wei He, Kai Han, Hang Zhou, Hanting Chen, Zhicheng Liu, Xinghao Chen, Yunhe Wang
cs.AI

초록

대규모 언어 모델(LLM)의 최적화는 여전히 중요한 과제로 남아 있으며, 특히 모델 규모 확장이 알고리즘 부정확성과 훈련 불안정성에 대한 민감도를 악화시킵니다. 옵티마이저 분야의 최근 발전은 모멘텀 직교화를 통해 수렴 효율성을 향상시켰지만, 두 가지 주요 강건성 한계를 지닙니다: 직교화 정밀도의 차원 취약성과 이상치 유발 노이즈에 대한 취약성입니다. 이러한 강건성 문제를 해결하기 위해 우리는 이중 강건성 메커니즘을 통해 훈련 안정성을 향상시키는 강건한 직교화 옵티마이저인 ROOT를 소개합니다. 첫째, 특정 행렬 크기에 맞춰진 세분화된 계수를 적용한 적응형 뉴턴 반복법을 사용하여 다양한 아키텍처 구성에서 일관된 정밀도를 보장하는 차원 강건 직교화 기법을 개발했습니다. 둘째, 의미 있는 기울기 방향을 보존하면서 이상치 노이즈를 억제하는 근위 최적화를 통한 최적화 강건 프레임워크를 도입했습니다. 폭넓은 실험을 통해 ROOT가 Muon 및 Adam 기반 옵티마이저 대비 특히 노이즈가 많고 비볼록한 시나리오에서 더 빠른 수렴과 우수한 최종 성능으로 현저히 향상된 강건성을 달성함을 입증했습니다. 우리의 연구는 현대 대규모 모델 훈련의 복잡성을 처리할 수 있는 강건하고 정밀한 옵티마이저 개발을 위한 새로운 패러다임을 정립합니다. 코드는 https://github.com/huawei-noah/noah-research/tree/master/ROOT에서 공개될 예정입니다.
English
The optimization of large language models (LLMs) remains a critical challenge, particularly as model scaling exacerbates sensitivity to algorithmic imprecision and training instability. Recent advances in optimizers have improved convergence efficiency through momentum orthogonalization, but suffer from two key robustness limitations: dimensional fragility in orthogonalization precision and vulnerability to outlier-induced noise. To address these robustness challenges, we introduce ROOT, a Robust Orthogonalized Optimizer that enhances training stability through dual robustness mechanisms. First, we develop a dimension-robust orthogonalization scheme using adaptive Newton iterations with fine-grained coefficients tailored to specific matrix sizes, ensuring consistent precision across diverse architectural configurations. Second, we introduce an optimization-robust framework via proximal optimization that suppresses outlier noise while preserving meaningful gradient directions. Extensive experiments demonstrate that ROOT achieves significantly improved robustness, with faster convergence and superior final performance compared to both Muon and Adam-based optimizers, particularly in noisy and non-convex scenarios. Our work establishes a new paradigm for developing robust and precise optimizers capable of handling the complexities of modern large-scale model training. The code will be available at https://github.com/huawei-noah/noah-research/tree/master/ROOT.
PDF1654December 1, 2025