Modellazione e Fusione Efficiente e Precisa di Modelli a Basso Rango nello Spazio Nucleare

Abstract

In questo articolo, affrontiamo le sfide associate alla fusione di adattamenti a basso rango di grandi reti neurali. Con l'ascesa di tecniche di adattamento efficienti in termini di parametri, come il Low-Rank Adaptation (LoRA), il fine-tuning dei modelli è diventato più accessibile. Sebbene il fine-tuning dei modelli con LoRA sia altamente efficiente, i metodi di fusione esistenti spesso sacrificano questa efficienza unendo matrici di pesi di dimensioni complete. Proponiamo il framework di fusione Core Space, che consente la fusione di modelli adattati con LoRA all'interno di una base di allineamento comune, preservando così l'efficienza dell'adattamento a basso rango e migliorando sostanzialmente l'accuratezza su diversi compiti. Forniamo inoltre una dimostrazione formale che la proiezione nello spazio Core garantisce l'assenza di perdita di informazioni e un'analisi della complessità che mostra i guadagni in termini di efficienza. Risultati empirici estesi dimostrano che Core Space migliora significativamente le tecniche di fusione esistenti e raggiunge risultati all'avanguardia sia nei compiti di visione che di linguaggio, utilizzando una frazione delle risorse computazionali. Il codice è disponibile all'indirizzo https://github.com/apanariello4/core-space-merging.

English

In this paper, we address the challenges associated with merging low-rank adaptations of large neural networks. With the rise of parameter-efficient adaptation techniques, such as Low-Rank Adaptation (LoRA), model fine-tuning has become more accessible. While fine-tuning models with LoRA is highly efficient, existing merging methods often sacrifice this efficiency by merging fully-sized weight matrices. We propose the Core Space merging framework, which enables the merging of LoRA-adapted models within a common alignment basis, thereby preserving the efficiency of low-rank adaptation while substantially improving accuracy across tasks. We further provide a formal proof that projection into Core Space ensures no loss of information and provide a complexity analysis showing the efficiency gains. Extensive empirical results demonstrate that Core Space significantly improves existing merging techniques and achieves state-of-the-art results on both vision and language tasks while utilizing a fraction of the computational resources. Codebase is available at https://github.com/apanariello4/core-space-merging.

Modellazione e Fusione Efficiente e Precisa di Modelli a Basso Rango nello Spazio Nucleare

Accurate and Efficient Low-Rank Model Merging in Core Space

Abstract

Support