ROOT: Robuster Orthogonalisierter Optimierer für das Training neuronaler Netze
ROOT: Robust Orthogonalized Optimizer for Neural Network Training
November 25, 2025
papers.authors: Wei He, Kai Han, Hang Zhou, Hanting Chen, Zhicheng Liu, Xinghao Chen, Yunhe Wang
cs.AI
papers.abstract
Die Optimierung großer Sprachmodelle (LLMs) bleibt eine kritische Herausforderung, insbesondere da die Skalierung von Modellen die Empfindlichkeit gegenüber algorithmischen Ungenauigkeiten und Trainingsinstabilität verschärft. Jüngste Fortschritte bei Optimierern haben die Konvergenzeffizienz durch Orthogonalisierung mit Momentum verbessert, leiden jedoch unter zwei wesentlichen Robustheitseinschränkungen: dimensionale Fragilität in der Orthogonalisierungspräzision und Anfälligkeit für ausreißerinduziertes Rauschen. Um diese Robustheitsherausforderungen zu adressieren, führen wir ROOT ein, einen robusten orthogonalisierten Optimierer, der die Trainingsstabilität durch duale Robustheitsmechanismen verbessert. Erstens entwickeln wir ein dimensionsrobustes Orthogonalisierungsschema unter Verwendung adaptiver Newton-Iterationen mit fein granularen Koeffizienten, die auf spezifische Matrixgrößen zugeschnitten sind, um eine konsistente Präzision über diverse Architekturkongurationen hinweg zu gewährleisten. Zweitens führen wir ein optimierungsrobustes Framework über proximale Optimierung ein, das Ausreißerrauschen unterdrückt und gleichzeitig bedeutungsvolle Gradientenrichtungen bewahrt. Umfangreiche Experimente zeigen, dass ROOT eine signifikant verbesserte Robustheit erreicht, mit schnellerer Konvergenz und überlegener Endleistung im Vergleich zu sowohl Muon- als auch Adam-basierten Optimierern, insbesondere in verrauschten und nicht-konvexen Szenarien. Unsere Arbeit etabliert ein neues Paradigma für die Entwicklung robuster und präziser Optimierer, die in der Lage sind, die Komplexitäten des modernen Trainings großskaliger Modelle zu bewältigen. Der Code wird unter https://github.com/huawei-noah/noah-research/tree/master/ROOT verfügbar sein.
English
The optimization of large language models (LLMs) remains a critical challenge, particularly as model scaling exacerbates sensitivity to algorithmic imprecision and training instability. Recent advances in optimizers have improved convergence efficiency through momentum orthogonalization, but suffer from two key robustness limitations: dimensional fragility in orthogonalization precision and vulnerability to outlier-induced noise. To address these robustness challenges, we introduce ROOT, a Robust Orthogonalized Optimizer that enhances training stability through dual robustness mechanisms. First, we develop a dimension-robust orthogonalization scheme using adaptive Newton iterations with fine-grained coefficients tailored to specific matrix sizes, ensuring consistent precision across diverse architectural configurations. Second, we introduce an optimization-robust framework via proximal optimization that suppresses outlier noise while preserving meaningful gradient directions. Extensive experiments demonstrate that ROOT achieves significantly improved robustness, with faster convergence and superior final performance compared to both Muon and Adam-based optimizers, particularly in noisy and non-convex scenarios. Our work establishes a new paradigm for developing robust and precise optimizers capable of handling the complexities of modern large-scale model training. The code will be available at https://github.com/huawei-noah/noah-research/tree/master/ROOT.