Ottimizzazione Efficiente dei Parametri tramite Fattorizzazione a Farfalla

Abstract

I grandi modelli di base stanno diventando onnipresenti, ma addestrarli da zero è proibitivamente costoso. Pertanto, adattare in modo efficiente questi potenti modelli a compiti downstream sta diventando sempre più importante. In questo articolo, studiamo un paradigma di fine-tuning basato su principi -- il Fine-tuning Ortogonale (OFT) -- per l'adattamento a compiti downstream. Nonostante dimostri una buona generalizzabilità, l'OFT utilizza ancora un numero piuttosto elevato di parametri addestrabili a causa dell'elevata dimensionalità delle matrici ortogonali. Per affrontare questo problema, iniziamo esaminando l'OFT da una prospettiva di trasmissione delle informazioni, e poi identifichiamo alcuni requisiti chiave che consentono una maggiore efficienza nei parametri. Ispirati da come l'algoritmo di trasformata veloce di Fourier di Cooley-Tukey consente una trasmissione efficiente delle informazioni, proponiamo una parametrizzazione ortogonale efficiente utilizzando strutture a farfalla. Applichiamo questa parametrizzazione all'OFT, creando un nuovo metodo di fine-tuning efficiente nei parametri, chiamato Orthogonal Butterfly (BOFT). Includendo l'OFT come caso speciale, il BOFT introduce un framework generalizzato di fine-tuning ortogonale. Infine, conduciamo uno studio empirico approfondito sull'adattamento di grandi trasformatori per la visione, grandi modelli linguistici e modelli di diffusione testo-immagine a vari compiti downstream nel campo della visione e del linguaggio.

English

Large foundation models are becoming ubiquitous, but training them from scratch is prohibitively expensive. Thus, efficiently adapting these powerful models to downstream tasks is increasingly important. In this paper, we study a principled finetuning paradigm -- Orthogonal Finetuning (OFT) -- for downstream task adaptation. Despite demonstrating good generalizability, OFT still uses a fairly large number of trainable parameters due to the high dimensionality of orthogonal matrices. To address this, we start by examining OFT from an information transmission perspective, and then identify a few key desiderata that enable better parameter-efficiency. Inspired by how the Cooley-Tukey fast Fourier transform algorithm enables efficient information transmission, we propose an efficient orthogonal parameterization using butterfly structures. We apply this parameterization to OFT, creating a novel parameter-efficient finetuning method, called Orthogonal Butterfly (BOFT). By subsuming OFT as a special case, BOFT introduces a generalized orthogonal finetuning framework. Finally, we conduct an extensive empirical study of adapting large vision transformers, large language models, and text-to-image diffusion models to various downstream tasks in vision and language.

Ottimizzazione Efficiente dei Parametri tramite Fattorizzazione a Farfalla

Parameter-Efficient Orthogonal Finetuning via Butterfly Factorization

Abstract

Support