나비 구조 분해를 통한 매개변수 효율적 직교 미세 조정
Parameter-Efficient Orthogonal Finetuning via Butterfly Factorization
November 10, 2023
저자: Weiyang Liu, Zeju Qiu, Yao Feng, Yuliang Xiu, Yuxuan Xue, Longhui Yu, Haiwen Feng, Zhen Liu, Juyeon Heo, Songyou Peng, Yandong Wen, Michael J. Black, Adrian Weller, Bernhard Schölkopf
cs.AI
초록
대형 파운데이션 모델은 점점 보편화되고 있지만, 이를 처음부터 학습시키는 것은 엄청난 비용이 듭니다. 따라서 이러한 강력한 모델을 다운스트림 작업에 효율적으로 적응시키는 것이 점점 더 중요해지고 있습니다. 본 논문에서는 다운스트림 작업 적응을 위한 원칙적인 파인튜닝 패러다임인 Orthogonal Finetuning(OFT)을 연구합니다. OFT는 우수한 일반화 능력을 보여주지만, 직교 행렬의 높은 차원성으로 인해 상당히 많은 수의 학습 가능한 파라미터를 사용합니다. 이를 해결하기 위해, 우리는 먼저 정보 전송 관점에서 OFT를 검토한 후, 더 나은 파라미터 효율성을 가능하게 하는 몇 가지 핵심 요구 사항을 식별합니다. Cooley-Tukey 고속 푸리에 변환 알고리즘이 효율적인 정보 전송을 가능하게 하는 방식에서 영감을 받아, 우리는 버터플라이 구조를 사용한 효율적인 직교 파라미터화를 제안합니다. 이 파라미터화를 OFT에 적용하여, Orthogonal Butterfly(BOFT)라는 새로운 파라미터 효율적 파인튜닝 방법을 창안합니다. BOFT는 OFT를 특수한 경우로 포함함으로써, 일반화된 직교 파인튜닝 프레임워크를 소개합니다. 마지막으로, 우리는 대형 비전 트랜스포머, 대형 언어 모델, 그리고 텍스트-이미지 확산 모델을 비전 및 언어 분야의 다양한 다운스트림 작업에 적응시키는 광범위한 실험 연구를 수행합니다.
English
Large foundation models are becoming ubiquitous, but training them from
scratch is prohibitively expensive. Thus, efficiently adapting these powerful
models to downstream tasks is increasingly important. In this paper, we study a
principled finetuning paradigm -- Orthogonal Finetuning (OFT) -- for downstream
task adaptation. Despite demonstrating good generalizability, OFT still uses a
fairly large number of trainable parameters due to the high dimensionality of
orthogonal matrices. To address this, we start by examining OFT from an
information transmission perspective, and then identify a few key desiderata
that enable better parameter-efficiency. Inspired by how the Cooley-Tukey fast
Fourier transform algorithm enables efficient information transmission, we
propose an efficient orthogonal parameterization using butterfly structures. We
apply this parameterization to OFT, creating a novel parameter-efficient
finetuning method, called Orthogonal Butterfly (BOFT). By subsuming OFT as a
special case, BOFT introduces a generalized orthogonal finetuning framework.
Finally, we conduct an extensive empirical study of adapting large vision
transformers, large language models, and text-to-image diffusion models to
various downstream tasks in vision and language.