Mano: Herstarten van manifoldoptimalisatie voor LLM-training

Samenvatting

Hoewel grote taalmodellen (LLM's) een significante vooruitgang in kunstmatige intelligentie vertegenwoordigen, zijn de hardware- en rekenkosten voor het trainen ervan eveneens aanzienlijk belastend. Onder de state-of-the-art optimalisatiemethoden vertrouwt AdamW op diagonale kromtingsschattingen en negeert het structurele eigenschappen, terwijl Muon globale spectrale normalisatie toepast ten koste van kromtingsinformatie. In deze studie hebben wij manifold-optimalisatiemethoden opnieuw onderzocht voor het trainen van LLM's, wat de beperkingen van beide optimalisatiemethoden mogelijk kan aanpakken, terwijl conventionele manifold-optimalisatiemethoden grotendeels over het hoofd zijn gezien vanwege de slechte prestaties bij grootschalige modeloptimalisatie. Door het momentum innovatief te projecteren op de raakruimte van de modelparameters en het te beperken tot een roterende Oblique-manifold, stellen wij een nieuwe, krachtige en efficiënte optimalisatiemethode voor, genaamd **Mano**, die als eerste de prestatiekloof tussen manifold-optimalisatie en moderne optimalisatiemethoden overbrugt. Uitgebreide experimenten met de LLaMA- en Qwen3-modellen tonen aan dat Mano consistent en significant beter presteert dan AdamW en Muon, zelfs met respectievelijk een lager geheugengebruik en een lagere rekencomplexiteit. Dit suggereert een uitgebreid Pareto-frontier in termen van ruimtelijke en temporele efficiëntie.

English

While large language models (LLMs) have emerged as a significant advancement in artificial intelligence, the hardware and computational costs for training LLMs are also significantly burdensome. Among the state-of-the-art optimizers, AdamW relies on diagonal curvature estimates and ignores structural properties, while Muon applies global spectral normalization at the expense of losing curvature information. In this study, we restriked manifold optimization methods for training LLMs, which may address both optimizers' limitations, while conventional manifold optimization methods have been largely overlooked due to the poor performance in large-scale model optimization. By innovatively projecting the momentum onto the tangent space of model parameters and constraining it on a rotational Oblique manifold, we propose a novel, powerful, and efficient optimizer **Mano** that is the first to bridge the performance gap between manifold optimization and modern optimizers. Extensive experiments on the LLaMA and Qwen3 models demonstrate that Mano consistently and significantly outperforms AdamW and Muon even with less memory consumption and computational complexity, respectively, suggesting an expanded Pareto frontier in terms of space and time efficiency.

Mano: Herstarten van manifoldoptimalisatie voor LLM-training

Mano: Restriking Manifold Optimization for LLM Training

Samenvatting

Support