Parameter-efficiënte Orthogonale Fijnafstemming via Butterfly-factorisatie
Parameter-Efficient Orthogonal Finetuning via Butterfly Factorization
November 10, 2023
Auteurs: Weiyang Liu, Zeju Qiu, Yao Feng, Yuliang Xiu, Yuxuan Xue, Longhui Yu, Haiwen Feng, Zhen Liu, Juyeon Heo, Songyou Peng, Yandong Wen, Michael J. Black, Adrian Weller, Bernhard Schölkopf
cs.AI
Samenvatting
Grote foundationmodellen worden steeds alomtegenwoordiger, maar het trainen ervan vanaf nul is buitensporig duur. Daarom wordt het efficiënt aanpassen van deze krachtige modellen aan downstream taken steeds belangrijker. In dit artikel bestuderen we een principieel finetuningparadigma -- Orthogonale Finetuning (OFT) -- voor de aanpassing aan downstream taken. Ondanks dat het goede generaliseerbaarheid demonstreert, gebruikt OFT nog steeds een vrij groot aantal trainbare parameters vanwege de hoge dimensionaliteit van orthogonale matrices. Om dit aan te pakken, beginnen we met het onderzoeken van OFT vanuit een informatieoverdrachtsperspectief, en identificeren we vervolgens enkele belangrijke vereisten die een betere parameter-efficiëntie mogelijk maken. Geïnspireerd door hoe het Cooley-Tukey snelle Fourier-transformatie-algoritme efficiënte informatieoverdracht mogelijk maakt, stellen we een efficiënte orthogonale parameterisatie voor met behulp van vlinderstructuren. We passen deze parameterisatie toe op OFT, waardoor een nieuwe parameter-efficiënte finetuningmethode ontstaat, genaamd Orthogonale Vlinder (BOFT). Door OFT als een speciaal geval te omvatten, introduceert BOFT een gegeneraliseerd orthogonaal finetuningraamwerk. Tot slot voeren we een uitgebreid empirisch onderzoek uit naar het aanpassen van grote visiontransformers, grote taalmmodellen en tekst-naar-beeld diffusiemodellen aan verschillende downstream taken in visie en taal.
English
Large foundation models are becoming ubiquitous, but training them from
scratch is prohibitively expensive. Thus, efficiently adapting these powerful
models to downstream tasks is increasingly important. In this paper, we study a
principled finetuning paradigm -- Orthogonal Finetuning (OFT) -- for downstream
task adaptation. Despite demonstrating good generalizability, OFT still uses a
fairly large number of trainable parameters due to the high dimensionality of
orthogonal matrices. To address this, we start by examining OFT from an
information transmission perspective, and then identify a few key desiderata
that enable better parameter-efficiency. Inspired by how the Cooley-Tukey fast
Fourier transform algorithm enables efficient information transmission, we
propose an efficient orthogonal parameterization using butterfly structures. We
apply this parameterization to OFT, creating a novel parameter-efficient
finetuning method, called Orthogonal Butterfly (BOFT). By subsuming OFT as a
special case, BOFT introduces a generalized orthogonal finetuning framework.
Finally, we conduct an extensive empirical study of adapting large vision
transformers, large language models, and text-to-image diffusion models to
various downstream tasks in vision and language.