Ajuste Fino Eficiente en Parámetros mediante Factorización de Mariposa
Parameter-Efficient Orthogonal Finetuning via Butterfly Factorization
November 10, 2023
Autores: Weiyang Liu, Zeju Qiu, Yao Feng, Yuliang Xiu, Yuxuan Xue, Longhui Yu, Haiwen Feng, Zhen Liu, Juyeon Heo, Songyou Peng, Yandong Wen, Michael J. Black, Adrian Weller, Bernhard Schölkopf
cs.AI
Resumen
Los grandes modelos fundacionales se están volviendo omnipresentes, pero entrenarlos desde cero resulta prohibitivamente costoso. Por lo tanto, adaptar de manera eficiente estos potentes modelos a tareas específicas es cada vez más importante. En este artículo, estudiamos un paradigma de ajuste fino basado en principios —el Ajuste Fino Ortogonal (OFT, por sus siglas en inglés)— para la adaptación a tareas específicas. A pesar de demostrar una buena capacidad de generalización, OFT aún utiliza un número considerablemente grande de parámetros entrenables debido a la alta dimensionalidad de las matrices ortogonales. Para abordar esto, comenzamos examinando OFT desde una perspectiva de transmisión de información y luego identificamos algunos requisitos clave que permiten una mayor eficiencia en el uso de parámetros. Inspirados por cómo el algoritmo de transformada rápida de Fourier de Cooley-Tukey permite una transmisión eficiente de información, proponemos una parametrización ortogonal eficiente utilizando estructuras de mariposa. Aplicamos esta parametrización a OFT, creando un nuevo método de ajuste fino eficiente en parámetros, llamado Mariposa Ortogonal (BOFT, por sus siglas en inglés). Al incluir OFT como un caso especial, BOFT introduce un marco generalizado de ajuste fino ortogonal. Finalmente, llevamos a cabo un estudio empírico exhaustivo sobre la adaptación de grandes transformadores de visión, grandes modelos de lenguaje y modelos de difusión de texto a imagen a diversas tareas específicas en visión y lenguaje.
English
Large foundation models are becoming ubiquitous, but training them from
scratch is prohibitively expensive. Thus, efficiently adapting these powerful
models to downstream tasks is increasingly important. In this paper, we study a
principled finetuning paradigm -- Orthogonal Finetuning (OFT) -- for downstream
task adaptation. Despite demonstrating good generalizability, OFT still uses a
fairly large number of trainable parameters due to the high dimensionality of
orthogonal matrices. To address this, we start by examining OFT from an
information transmission perspective, and then identify a few key desiderata
that enable better parameter-efficiency. Inspired by how the Cooley-Tukey fast
Fourier transform algorithm enables efficient information transmission, we
propose an efficient orthogonal parameterization using butterfly structures. We
apply this parameterization to OFT, creating a novel parameter-efficient
finetuning method, called Orthogonal Butterfly (BOFT). By subsuming OFT as a
special case, BOFT introduces a generalized orthogonal finetuning framework.
Finally, we conduct an extensive empirical study of adapting large vision
transformers, large language models, and text-to-image diffusion models to
various downstream tasks in vision and language.