Ajuste Fino Eficiente em Parâmetros via Fatoração Borboleta
Parameter-Efficient Orthogonal Finetuning via Butterfly Factorization
November 10, 2023
Autores: Weiyang Liu, Zeju Qiu, Yao Feng, Yuliang Xiu, Yuxuan Xue, Longhui Yu, Haiwen Feng, Zhen Liu, Juyeon Heo, Songyou Peng, Yandong Wen, Michael J. Black, Adrian Weller, Bernhard Schölkopf
cs.AI
Resumo
Modelos de base grandes estão se tornando onipresentes, mas treiná-los do zero é proibitivamente caro. Portanto, adaptar de forma eficiente esses modelos poderosos para tarefas subsequentes é cada vez mais importante. Neste artigo, estudamos um paradigma de ajuste fino fundamentado -- Ajuste Fino Ortogonal (OFT) -- para adaptação a tarefas subsequentes. Apesar de demonstrar boa generalização, o OFT ainda utiliza um número considerável de parâmetros treináveis devido à alta dimensionalidade das matrizes ortogonais. Para abordar isso, começamos examinando o OFT a partir de uma perspectiva de transmissão de informação e, em seguida, identificamos alguns requisitos-chave que permitem uma melhor eficiência de parâmetros. Inspirados pela forma como o algoritmo de transformada rápida de Fourier de Cooley-Tukey permite uma transmissão eficiente de informação, propomos uma parametrização ortogonal eficiente usando estruturas de borboleta. Aplicamos essa parametrização ao OFT, criando um novo método de ajuste fino eficiente em parâmetros, chamado Borboleta Ortogonal (BOFT). Ao englobar o OFT como um caso especial, o BOFT introduz uma estrutura generalizada de ajuste fino ortogonal. Por fim, realizamos um estudo empírico extenso de adaptação de grandes transformadores de visão, grandes modelos de linguagem e modelos de difusão de texto para imagem a várias tarefas subsequentes em visão e linguagem.
English
Large foundation models are becoming ubiquitous, but training them from
scratch is prohibitively expensive. Thus, efficiently adapting these powerful
models to downstream tasks is increasingly important. In this paper, we study a
principled finetuning paradigm -- Orthogonal Finetuning (OFT) -- for downstream
task adaptation. Despite demonstrating good generalizability, OFT still uses a
fairly large number of trainable parameters due to the high dimensionality of
orthogonal matrices. To address this, we start by examining OFT from an
information transmission perspective, and then identify a few key desiderata
that enable better parameter-efficiency. Inspired by how the Cooley-Tukey fast
Fourier transform algorithm enables efficient information transmission, we
propose an efficient orthogonal parameterization using butterfly structures. We
apply this parameterization to OFT, creating a novel parameter-efficient
finetuning method, called Orthogonal Butterfly (BOFT). By subsuming OFT as a
special case, BOFT introduces a generalized orthogonal finetuning framework.
Finally, we conduct an extensive empirical study of adapting large vision
transformers, large language models, and text-to-image diffusion models to
various downstream tasks in vision and language.