NorMuon: Rendere Muon più efficiente e scalabile

Abstract

La scelta dell'ottimizzatore influisce significativamente sull'efficienza dell'addestramento e sui costi computazionali dei grandi modelli linguistici (LLM). Recentemente, l'ottimizzatore Muon ha dimostrato risultati promettenti ortogonalizzando gli aggiornamenti dei parametri, migliorando la geometria dell'ottimizzazione attraverso un migliore condizionamento. Nonostante l'emergere di Muon come candidato successore di Adam, il potenziale per sfruttare congiuntamente i loro punti di forza non è stato sistematicamente esplorato. In questo lavoro, colmiamo questa lacuna proponendo NorMuon (Neuron-wise Normalized Muon), un ottimizzatore che combina sinergicamente l'ortogonalizzazione con tassi di apprendimento adattivi a livello di neurone. La nostra analisi rivela che, sebbene Muon riduca efficacemente i numeri di condizionamento, gli aggiornamenti risultanti presentano norme dei neuroni altamente non uniformi, causando il dominio di alcuni neuroni nel processo di ottimizzazione. NorMuon affronta questo squilibrio mantenendo statistiche del momento del secondo ordine per ogni neurone e applicando una normalizzazione per riga dopo l'ortogonalizzazione, garantendo un utilizzo bilanciato dei parametri preservando i benefici del condizionamento di Muon. Per consentire un'implementazione pratica su larga scala, sviluppiamo un'implementazione distribuita efficiente nel framework FSDP2 che distribuisce strategicamente i calcoli di ortogonalizzazione tra i dispositivi. Esperimenti su più scale di modelli dimostrano che NorMuon supera costantemente sia Adam che Muon, raggiungendo un'efficienza di addestramento migliore del 21,74% rispetto ad Adam e un miglioramento dell'11,31% rispetto a Muon in un contesto di pre-addestramento da 1,1 miliardi di parametri, mantenendo un'impronta di memoria comparabile a quella di Muon. I nostri risultati suggeriscono che l'ortogonalizzazione e i tassi di apprendimento adattivi sono approcci complementari piuttosto che concorrenti, aprendo nuove strade per la progettazione di ottimizzatori nell'apprendimento profondo su larga scala.

English

The choice of optimizer significantly impacts the training efficiency and computational costs of large language models (LLMs). Recently, the Muon optimizer has demonstrated promising results by orthogonalizing parameter updates, improving optimization geometry through better conditioning. Despite Muon's emergence as a candidate successor to Adam, the potential for jointly leveraging their strengths has not been systematically explored. In this work, we bridge this gap by proposing NorMuon (Neuron-wise Normalized Muon), an optimizer that synergistically combines orthogonalization with neuron-level adaptive learning rates. Our analysis reveals that while Muon effectively reduces condition numbers, the resulting updates exhibit highly non-uniform neuron norms, causing certain neurons to dominate the optimization process. NorMuon addresses this imbalance by maintaining second-order momentum statistics for each neuron and applying row-wise normalization after orthogonalization, ensuring balanced parameter utilization while preserving Muon's conditioning benefits. To enable practical deployment at scale, we develop an efficient distributed implementation under the FSDP2 framework that strategically distributes orthogonalization computations across devices. Experiments across multiple model scales demonstrate that NorMuon consistently outperforms both Adam and Muon, achieving 21.74% better training efficiency than Adam and 11.31% improvement over Muon on 1.1 B pretraining setting, while maintaining a comparable memory footprint to Muon. Our findings suggest that orthogonalization and adaptive learning rates are complementary rather than competing approaches, opening new avenues for optimizer design in large-scale deep learning.

NorMuon: Rendere Muon più efficiente e scalabile

NorMuon: Making Muon more efficient and scalable

Abstract

Support