バタフライ分解によるパラメータ効率的な直交ファインチューニング
Parameter-Efficient Orthogonal Finetuning via Butterfly Factorization
November 10, 2023
著者: Weiyang Liu, Zeju Qiu, Yao Feng, Yuliang Xiu, Yuxuan Xue, Longhui Yu, Haiwen Feng, Zhen Liu, Juyeon Heo, Songyou Peng, Yandong Wen, Michael J. Black, Adrian Weller, Bernhard Schölkopf
cs.AI
要旨
大規模な基盤モデルは至る所で利用されるようになっていますが、それらをゼロから訓練するのは非常に高コストです。そのため、これらの強力なモデルを下流タスクに効率的に適応させることがますます重要になっています。本論文では、下流タスク適応のための原理に基づいたファインチューニングパラダイム——直交ファインチューニング(OFT)——を研究します。OFTは良好な汎化性能を示すものの、直交行列の高次元性により、依然としてかなり多くの訓練可能なパラメータを使用します。この問題に対処するため、まずOFTを情報伝達の観点から検討し、よりパラメータ効率を高めるためのいくつかの重要な要件を特定します。クーリー・テューキーの高速フーリエ変換アルゴリズムが効率的な情報伝達を可能にする方法に着想を得て、バタフライ構造を用いた効率的な直交パラメータ化を提案します。このパラメータ化をOFTに適用し、新しいパラメータ効率型のファインチューニング手法である直交バタフライ(BOFT)を創出します。BOFTはOFTを特殊ケースとして包含し、一般化された直交ファインチューニングフレームワークを導入します。最後に、大規模なビジョントランスフォーマー、大規模言語モデル、およびテキストから画像への拡散モデルを、視覚と言語のさまざまな下流タスクに適応させるための広範な実証研究を行います。
English
Large foundation models are becoming ubiquitous, but training them from
scratch is prohibitively expensive. Thus, efficiently adapting these powerful
models to downstream tasks is increasingly important. In this paper, we study a
principled finetuning paradigm -- Orthogonal Finetuning (OFT) -- for downstream
task adaptation. Despite demonstrating good generalizability, OFT still uses a
fairly large number of trainable parameters due to the high dimensionality of
orthogonal matrices. To address this, we start by examining OFT from an
information transmission perspective, and then identify a few key desiderata
that enable better parameter-efficiency. Inspired by how the Cooley-Tukey fast
Fourier transform algorithm enables efficient information transmission, we
propose an efficient orthogonal parameterization using butterfly structures. We
apply this parameterization to OFT, creating a novel parameter-efficient
finetuning method, called Orthogonal Butterfly (BOFT). By subsuming OFT as a
special case, BOFT introduces a generalized orthogonal finetuning framework.
Finally, we conduct an extensive empirical study of adapting large vision
transformers, large language models, and text-to-image diffusion models to
various downstream tasks in vision and language.