Mano: Otimização de Variedade de Reativação para Treinamento de LLM

Resumo

Embora os grandes modelos de linguagem (LLMs) representem um avanço significativo na inteligência artificial, os custos de hardware e computação para seu treinamento também são consideravelmente onerosos. Entre os otimizadores de última geração, o AdamW depende de estimativas de curvatura diagonal e ignora propriedades estruturais, enquanto o Muon aplica normalização espectral global à custa de perder informações de curvatura. Neste estudo, revisitamos os métodos de otimização em variedades (manifolds) para o treinamento de LLMs, os quais podem abordar as limitações de ambos os otimizadores, uma vez que os métodos convencionais de otimização em variedades têm sido largamente negligenciados devido ao seu desempenho insatisfatório na otimização de modelos em larga escala. Ao projetar inovadoramente o momento no espaço tangente dos parâmetros do modelo e restringi-lo a uma variedade oblíqua rotacional, propomos um novo, poderoso e eficiente otimizador, o **Mano**, que é o primeiro a preencher a lacuna de desempenho entre a otimização em variedades e os otimizadores modernos. Experimentos extensivos com os modelos LLaMA e Qwen3 demonstram que o Mano supera de forma consistente e significativa o AdamW e o Muon, mesmo com menor consumo de memória e complexidade computacional, respectivamente, sugerindo uma fronteira de Pareto expandida em termos de eficiência espacial e temporal.

English

While large language models (LLMs) have emerged as a significant advancement in artificial intelligence, the hardware and computational costs for training LLMs are also significantly burdensome. Among the state-of-the-art optimizers, AdamW relies on diagonal curvature estimates and ignores structural properties, while Muon applies global spectral normalization at the expense of losing curvature information. In this study, we restriked manifold optimization methods for training LLMs, which may address both optimizers' limitations, while conventional manifold optimization methods have been largely overlooked due to the poor performance in large-scale model optimization. By innovatively projecting the momentum onto the tangent space of model parameters and constraining it on a rotational Oblique manifold, we propose a novel, powerful, and efficient optimizer **Mano** that is the first to bridge the performance gap between manifold optimization and modern optimizers. Extensive experiments on the LLaMA and Qwen3 models demonstrate that Mano consistently and significantly outperforms AdamW and Muon even with less memory consumption and computational complexity, respectively, suggesting an expanded Pareto frontier in terms of space and time efficiency.

Mano: Otimização de Variedade de Reativação para Treinamento de LLM

Mano: Restriking Manifold Optimization for LLM Training

Resumo

Support