Mano: Riavviamento della Varietà di Ottimizzazione per l'Addestramento di LLM

Abstract

Sebbene i grandi modelli linguistici (LLM) rappresentino un progresso significativo nell'intelligenza artificiale, i costi hardware e computazionale per il loro addestramento sono anch'essi notevolmente onerosi. Tra gli ottimizzatori allo stato dell'arte, AdamW si basa su stime diagonali della curvatura e ignora le proprietà strutturali, mentre Muon applica una normalizzazione spettrale globale al prezzo di perdere informazioni sulla curvatura. In questo studio, abbiamo riesaminato i metodi di ottimizzazione su varietà per l'addestramento degli LLM, che potrebbero affrontare i limiti di entrambi gli ottimizzatori, sebbene i metodi convenzionali di ottimizzazione su varietà siano stati largamente trascurati a causa delle scarse prestazioni nell'ottimizzazione di modelli su larga scala. Proiettando in modo innovativo il momento nello spazio tangente dei parametri del modello e vincolandolo su una varietà obliqua rotazionale, proponiamo un nuovo, potente ed efficiente ottimizzatore, **Mano**, che è il primo a colmare il divario prestazionale tra l'ottimizzazione su varietà e gli ottimizzatori moderni. Esperimenti estesi sui modelli LLaMA e Qwen3 dimostrano che Mano supera costantemente e significativamente AdamW e Muon, persino con un minore consumo di memoria e una minore complessità computazionale, rispettivamente, suggerendo un'espansione della frontiera di Pareto in termini di efficienza spaziale e temporale.

English

While large language models (LLMs) have emerged as a significant advancement in artificial intelligence, the hardware and computational costs for training LLMs are also significantly burdensome. Among the state-of-the-art optimizers, AdamW relies on diagonal curvature estimates and ignores structural properties, while Muon applies global spectral normalization at the expense of losing curvature information. In this study, we restriked manifold optimization methods for training LLMs, which may address both optimizers' limitations, while conventional manifold optimization methods have been largely overlooked due to the poor performance in large-scale model optimization. By innovatively projecting the momentum onto the tangent space of model parameters and constraining it on a rotational Oblique manifold, we propose a novel, powerful, and efficient optimizer **Mano** that is the first to bridge the performance gap between manifold optimization and modern optimizers. Extensive experiments on the LLaMA and Qwen3 models demonstrate that Mano consistently and significantly outperforms AdamW and Muon even with less memory consumption and computational complexity, respectively, suggesting an expanded Pareto frontier in terms of space and time efficiency.

Mano: Riavviamento della Varietà di Ottimizzazione per l'Addestramento di LLM

Mano: Restriking Manifold Optimization for LLM Training

Abstract

Support