Mano: Reoptimización de la Variedad de Reignición para el Entrenamiento de LLM

Resumen

Si bien los grandes modelos de lenguaje (LLM) han surgido como un avance significativo en la inteligencia artificial, los costos de hardware y computación para su entrenamiento también representan una carga considerable. Entre los optimizadores de última generación, AdamW se basa en estimaciones de curvatura diagonal e ignora las propiedades estructurales, mientras que Muon aplica una normalización espectral global a costa de perder información de curvatura. En este estudio, reexaminamos los métodos de optimización en variedades para el entrenamiento de LLM, los cuales podrían abordar las limitaciones de ambos optimizadores, dado que los métodos convencionales de optimización en variedades han sido ampliamente ignorados debido a su bajo rendimiento en la optimización de modelos a gran escala. Mediante la proyección innovadora del momento en el espacio tangente de los parámetros del modelo y su restricción a una variedad oblicua rotacional, proponemos un optimizador novedoso, potente y eficiente, **Mano**, que es el primero en cerrar la brecha de rendimiento entre la optimización en variedades y los optimizadores modernos. Experimentos exhaustivos con los modelos LLaMA y Qwen3 demuestran que Mano supera constante y significativamente a AdamW y Muon, incluso con menor consumo de memoria y complejidad computacional, respectivamente, lo que sugiere una frontera de Pareto expandida en términos de eficiencia espacial y temporal.

English

While large language models (LLMs) have emerged as a significant advancement in artificial intelligence, the hardware and computational costs for training LLMs are also significantly burdensome. Among the state-of-the-art optimizers, AdamW relies on diagonal curvature estimates and ignores structural properties, while Muon applies global spectral normalization at the expense of losing curvature information. In this study, we restriked manifold optimization methods for training LLMs, which may address both optimizers' limitations, while conventional manifold optimization methods have been largely overlooked due to the poor performance in large-scale model optimization. By innovatively projecting the momentum onto the tangent space of model parameters and constraining it on a rotational Oblique manifold, we propose a novel, powerful, and efficient optimizer **Mano** that is the first to bridge the performance gap between manifold optimization and modern optimizers. Extensive experiments on the LLaMA and Qwen3 models demonstrate that Mano consistently and significantly outperforms AdamW and Muon even with less memory consumption and computational complexity, respectively, suggesting an expanded Pareto frontier in terms of space and time efficiency.