ChatPaper.aiChatPaper

RiemannLoRA: Un Marco Riemanniano Unificado para la Optimización de LoRA Libre de Ambigüedades

RiemannLoRA: A Unified Riemannian Framework for Ambiguity-Free LoRA Optimization

July 16, 2025
Autores: Vladimir Bogachev, Vladimir Aletov, Alexander Molozhavenko, Denis Bobkov, Vera Soboleva, Aibek Alanov, Maxim Rakhuba
cs.AI

Resumen

La Adaptación de Bajo Rango (LoRA, por sus siglas en inglés) se ha convertido en un estándar ampliamente adoptado para el ajuste fino eficiente en parámetros de modelos de lenguaje grandes (LLMs), reduciendo significativamente las demandas de memoria y computación. Sin embargo, persisten desafíos, como encontrar estrategias óptimas de inicialización o mitigar la sobreparametrización en la factorización de matrices de bajo rango. En este trabajo, proponemos un enfoque novedoso que aborda ambos desafíos simultáneamente dentro de un marco unificado. Nuestro método trata un conjunto de matrices LoRA de rango fijo como una variedad suave. Al considerar los adaptadores como elementos en esta variedad se elimina la sobreparametrización, mientras que determinar la dirección de la disminución más rápida de la pérdida a lo largo de la variedad proporciona la inicialización. Se presta especial atención para obtener una implementación numéricamente estable y computacionalmente eficiente de nuestro método, utilizando las mejores prácticas del álgebra lineal numérica y la optimización riemanniana. Los resultados experimentales en arquitecturas de LLM y modelos de difusión demuestran que RiemannLoRA mejora consistentemente tanto la velocidad de convergencia como el rendimiento final en comparación con LoRA estándar y sus modificaciones de vanguardia.
English
Low-Rank Adaptation (LoRA) has become a widely adopted standard for parameter-efficient fine-tuning of large language models (LLMs), significantly reducing memory and computational demands. However, challenges remain, including finding optimal initialization strategies or mitigating overparametrization in low-rank matrix factorization. In this work, we propose a novel approach that addresses both of the challenges simultaneously within a unified framework. Our method treats a set of fixed-rank LoRA matrices as a smooth manifold. Considering adapters as elements on this manifold removes overparametrization, while determining the direction of the fastest loss decrease along the manifold provides initialization. Special care is taken to obtain numerically stable and computationally efficient implementation of our method, using best practices from numerical linear algebra and Riemannian optimization. Experimental results on LLM and diffusion model architectures demonstrate that RiemannLoRA consistently improves both convergence speed and final performance over standard LoRA and its state-of-the-art modifications.
PDF201July 18, 2025