Ottimizzazione Efficiente dei Parametri tramite Fattorizzazione a Farfalla
Parameter-Efficient Orthogonal Finetuning via Butterfly Factorization
November 10, 2023
Autori: Weiyang Liu, Zeju Qiu, Yao Feng, Yuliang Xiu, Yuxuan Xue, Longhui Yu, Haiwen Feng, Zhen Liu, Juyeon Heo, Songyou Peng, Yandong Wen, Michael J. Black, Adrian Weller, Bernhard Schölkopf
cs.AI
Abstract
I grandi modelli di base stanno diventando onnipresenti, ma addestrarli da zero è proibitivamente costoso. Pertanto, adattare in modo efficiente questi potenti modelli a compiti downstream sta diventando sempre più importante. In questo articolo, studiamo un paradigma di fine-tuning basato su principi -- il Fine-tuning Ortogonale (OFT) -- per l'adattamento a compiti downstream. Nonostante dimostri una buona generalizzabilità, l'OFT utilizza ancora un numero piuttosto elevato di parametri addestrabili a causa dell'elevata dimensionalità delle matrici ortogonali. Per affrontare questo problema, iniziamo esaminando l'OFT da una prospettiva di trasmissione delle informazioni, e poi identifichiamo alcuni requisiti chiave che consentono una maggiore efficienza nei parametri. Ispirati da come l'algoritmo di trasformata veloce di Fourier di Cooley-Tukey consente una trasmissione efficiente delle informazioni, proponiamo una parametrizzazione ortogonale efficiente utilizzando strutture a farfalla. Applichiamo questa parametrizzazione all'OFT, creando un nuovo metodo di fine-tuning efficiente nei parametri, chiamato Orthogonal Butterfly (BOFT). Includendo l'OFT come caso speciale, il BOFT introduce un framework generalizzato di fine-tuning ortogonale. Infine, conduciamo uno studio empirico approfondito sull'adattamento di grandi trasformatori per la visione, grandi modelli linguistici e modelli di diffusione testo-immagine a vari compiti downstream nel campo della visione e del linguaggio.
English
Large foundation models are becoming ubiquitous, but training them from
scratch is prohibitively expensive. Thus, efficiently adapting these powerful
models to downstream tasks is increasingly important. In this paper, we study a
principled finetuning paradigm -- Orthogonal Finetuning (OFT) -- for downstream
task adaptation. Despite demonstrating good generalizability, OFT still uses a
fairly large number of trainable parameters due to the high dimensionality of
orthogonal matrices. To address this, we start by examining OFT from an
information transmission perspective, and then identify a few key desiderata
that enable better parameter-efficiency. Inspired by how the Cooley-Tukey fast
Fourier transform algorithm enables efficient information transmission, we
propose an efficient orthogonal parameterization using butterfly structures. We
apply this parameterization to OFT, creating a novel parameter-efficient
finetuning method, called Orthogonal Butterfly (BOFT). By subsuming OFT as a
special case, BOFT introduces a generalized orthogonal finetuning framework.
Finally, we conduct an extensive empirical study of adapting large vision
transformers, large language models, and text-to-image diffusion models to
various downstream tasks in vision and language.