Fusión Precisa y Eficiente de Modelos de Bajo Rango en el Espacio Central

Resumen

En este artículo, abordamos los desafíos asociados con la fusión de adaptaciones de bajo rango en redes neuronales grandes. Con el auge de las técnicas de adaptación eficientes en parámetros, como la Adaptación de Bajo Rango (LoRA), el ajuste fino de modelos se ha vuelto más accesible. Si bien el ajuste fino de modelos con LoRA es altamente eficiente, los métodos de fusión existentes a menudo sacrifican esta eficiencia al fusionar matrices de pesos de tamaño completo. Proponemos el marco de fusión Espacio Central (Core Space), que permite la fusión de modelos adaptados con LoRA dentro de una base de alineación común, preservando así la eficiencia de la adaptación de bajo rango mientras se mejora sustancialmente la precisión en diversas tareas. Además, proporcionamos una prueba formal de que la proyección en el Espacio Central garantiza que no se pierda información y presentamos un análisis de complejidad que muestra las ganancias en eficiencia. Los resultados empíricos extensos demuestran que Espacio Central mejora significativamente las técnicas de fusión existentes y logra resultados de vanguardia tanto en tareas de visión como de lenguaje, utilizando una fracción de los recursos computacionales. El código está disponible en https://github.com/apanariello4/core-space-merging.

English

In this paper, we address the challenges associated with merging low-rank adaptations of large neural networks. With the rise of parameter-efficient adaptation techniques, such as Low-Rank Adaptation (LoRA), model fine-tuning has become more accessible. While fine-tuning models with LoRA is highly efficient, existing merging methods often sacrifice this efficiency by merging fully-sized weight matrices. We propose the Core Space merging framework, which enables the merging of LoRA-adapted models within a common alignment basis, thereby preserving the efficiency of low-rank adaptation while substantially improving accuracy across tasks. We further provide a formal proof that projection into Core Space ensures no loss of information and provide a complexity analysis showing the efficiency gains. Extensive empirical results demonstrate that Core Space significantly improves existing merging techniques and achieves state-of-the-art results on both vision and language tasks while utilizing a fraction of the computational resources. Codebase is available at https://github.com/apanariello4/core-space-merging.

Fusión Precisa y Eficiente de Modelos de Bajo Rango en el Espacio Central

Accurate and Efficient Low-Rank Model Merging in Core Space

Resumen

Support