Mano: Перезапуск многообразийной оптимизации для обучения больших языковых моделей

Аннотация

Хотя большие языковые модели (LLM) стали значительным прорывом в области искусственного интеллекта, аппаратные и вычислительные затраты на их обучение также являются существенным бременем. Среди современных оптимизаторов AdamW полагается на диагональные оценки кривизны и игнорирует структурные свойства, тогда как Muon применяет глобальную спектральную нормализацию ценой потери информации о кривизне. В данном исследовании мы пересмотрели методы оптимизации на многообразиях для обучения LLM, которые могут устранить ограничения обоих оптимизаторов, в то время как традиционные методы оптимизации на многообразиях оставались в значительной степени без внимания из-за их низкой производительности при оптимизации крупномасштабных моделей. Инновационно проецируя импульс на касательное пространство параметров модели и ограничивая его на вращающемся косом многообразии, мы предлагаем новый, мощный и эффективный оптимизатор **Mano**, который первым преодолевает разрыв в производительности между оптимизацией на многообразиях и современными оптимизаторами. Многочисленные эксперименты на моделях LLaMA и Qwen3 демонстрируют, что Mano стабильно и значительно превосходит AdamW и Muon даже при меньшем потреблении памяти и вычислительной сложности соответственно, что указывает на расширенную границу Парето с точки зрения пространственной и временной эффективности.

English

While large language models (LLMs) have emerged as a significant advancement in artificial intelligence, the hardware and computational costs for training LLMs are also significantly burdensome. Among the state-of-the-art optimizers, AdamW relies on diagonal curvature estimates and ignores structural properties, while Muon applies global spectral normalization at the expense of losing curvature information. In this study, we restriked manifold optimization methods for training LLMs, which may address both optimizers' limitations, while conventional manifold optimization methods have been largely overlooked due to the poor performance in large-scale model optimization. By innovatively projecting the momentum onto the tangent space of model parameters and constraining it on a rotational Oblique manifold, we propose a novel, powerful, and efficient optimizer **Mano** that is the first to bridge the performance gap between manifold optimization and modern optimizers. Extensive experiments on the LLaMA and Qwen3 models demonstrate that Mano consistently and significantly outperforms AdamW and Muon even with less memory consumption and computational complexity, respectively, suggesting an expanded Pareto frontier in terms of space and time efficiency.

Mano: Перезапуск многообразийной оптимизации для обучения больших языковых моделей

Mano: Restriking Manifold Optimization for LLM Training

Аннотация

Support