RiemannLoRA: Унифицированная риманова структура для оптимизации LoRA без неоднозначностей
RiemannLoRA: A Unified Riemannian Framework for Ambiguity-Free LoRA Optimization
July 16, 2025
Авторы: Vladimir Bogachev, Vladimir Aletov, Alexander Molozhavenko, Denis Bobkov, Vera Soboleva, Aibek Alanov, Maxim Rakhuba
cs.AI
Аннотация
Метод Low-Rank Adaptation (LoRA) стал широко используемым стандартом для параметрически эффективной тонкой настройки больших языковых моделей (LLM), значительно снижая требования к памяти и вычислительным ресурсам. Однако остаются нерешенные задачи, такие как поиск оптимальных стратегий инициализации или устранение избыточной параметризации в низкоранговой матричной факторизации. В данной работе мы предлагаем новый подход, который одновременно решает обе эти задачи в рамках единой концепции. Наш метод рассматривает набор LoRA-матриц фиксированного ранга как гладкое многообразие. Рассмотрение адаптеров как элементов этого многообразия устраняет избыточную параметризацию, а определение направления наиболее быстрого уменьшения потерь вдоль многообразия обеспечивает инициализацию. Особое внимание уделено численно устойчивой и вычислительно эффективной реализации нашего метода с использованием лучших практик из численной линейной алгебры и римановой оптимизации. Экспериментальные результаты на архитектурах LLM и диффузионных моделей демонстрируют, что RiemannLoRA последовательно улучшает как скорость сходимости, так и итоговую производительность по сравнению со стандартным LoRA и его современными модификациями.
English
Low-Rank Adaptation (LoRA) has become a widely adopted standard for
parameter-efficient fine-tuning of large language models (LLMs), significantly
reducing memory and computational demands. However, challenges remain,
including finding optimal initialization strategies or mitigating
overparametrization in low-rank matrix factorization. In this work, we propose
a novel approach that addresses both of the challenges simultaneously within a
unified framework. Our method treats a set of fixed-rank LoRA matrices as a
smooth manifold. Considering adapters as elements on this manifold removes
overparametrization, while determining the direction of the fastest loss
decrease along the manifold provides initialization. Special care is taken to
obtain numerically stable and computationally efficient implementation of our
method, using best practices from numerical linear algebra and Riemannian
optimization. Experimental results on LLM and diffusion model architectures
demonstrate that RiemannLoRA consistently improves both convergence speed and
final performance over standard LoRA and its state-of-the-art modifications.