ChatPaper.aiChatPaper

ROOT: Ottimizzatore Robusto Ortogonalizzato per l'Addestramento di Reti Neurali

ROOT: Robust Orthogonalized Optimizer for Neural Network Training

November 25, 2025
Autori: Wei He, Kai Han, Hang Zhou, Hanting Chen, Zhicheng Liu, Xinghao Chen, Yunhe Wang
cs.AI

Abstract

L'ottimizzazione dei grandi modelli linguistici (LLM) rimane una sfida cruciale, specialmente poiché la scalabilità dei modelli aggrava la sensibilità all'imprecisione algoritmica e all'instabilità dell'addestramento. I recenti progressi negli ottimizzatori hanno migliorato l'efficienza della convergenza attraverso l'ortogonalizzazione del momento, ma soffrono di due limitazioni chiave di robustezza: la fragilità dimensionale nella precisione di ortogonalizzazione e la vulnerabilità al rumore indotto da valori anomali. Per affrontare queste sfide di robustezza, introduciamo ROOT, un Ottimizzatore Ortogonalizzato Robusto che migliora la stabilità dell'addestramento attraverso duplici meccanismi di robustezza. In primo luogo, sviluppiamo uno schema di ortogonalizzazione robusto a livello dimensionale utilizzando iterazioni di Newton adattive con coefficienti a grana fine calibrati per specifiche dimensioni matriciali, garantendo una precisione consistente across diverse configurazioni architetturali. In secondo luogo, introduciamo un framework robusto a livello di ottimizzazione tramite ottimizzazione prossimale che sopprime il rumore da outlier preservando al contempo le direzioni del gradiente significative. Esperimenti estensivi dimostrano che ROOT raggiunge una robustezza significativamente migliorata, con una convergenza più rapida e prestazioni finali superiori rispetto sia agli ottimizzatori basati su Muon che su Adam, specialmente in scenari rumorosi e non convessi. Il nostro lavoro stabilisce un nuovo paradigma per lo sviluppo di ottimizzatori robusti e precisi in grado di gestire le complessità dell'addestramento moderno di modelli su larga scala. Il codice sarà disponibile all'indirizzo https://github.com/huawei-noah/noah-research/tree/master/ROOT.
English
The optimization of large language models (LLMs) remains a critical challenge, particularly as model scaling exacerbates sensitivity to algorithmic imprecision and training instability. Recent advances in optimizers have improved convergence efficiency through momentum orthogonalization, but suffer from two key robustness limitations: dimensional fragility in orthogonalization precision and vulnerability to outlier-induced noise. To address these robustness challenges, we introduce ROOT, a Robust Orthogonalized Optimizer that enhances training stability through dual robustness mechanisms. First, we develop a dimension-robust orthogonalization scheme using adaptive Newton iterations with fine-grained coefficients tailored to specific matrix sizes, ensuring consistent precision across diverse architectural configurations. Second, we introduce an optimization-robust framework via proximal optimization that suppresses outlier noise while preserving meaningful gradient directions. Extensive experiments demonstrate that ROOT achieves significantly improved robustness, with faster convergence and superior final performance compared to both Muon and Adam-based optimizers, particularly in noisy and non-convex scenarios. Our work establishes a new paradigm for developing robust and precise optimizers capable of handling the complexities of modern large-scale model training. The code will be available at https://github.com/huawei-noah/noah-research/tree/master/ROOT.
PDF1654December 1, 2025