ChatPaper.aiChatPaper

Parameter-effizientes orthogonales Finetuning durch Butterfly-Faktorisierung

Parameter-Efficient Orthogonal Finetuning via Butterfly Factorization

November 10, 2023
Autoren: Weiyang Liu, Zeju Qiu, Yao Feng, Yuliang Xiu, Yuxuan Xue, Longhui Yu, Haiwen Feng, Zhen Liu, Juyeon Heo, Songyou Peng, Yandong Wen, Michael J. Black, Adrian Weller, Bernhard Schölkopf
cs.AI

Zusammenfassung

Große Foundation-Modelle werden allgegenwärtig, aber das Training von Grund auf ist prohibitiv teuer. Daher wird die effiziente Anpassung dieser leistungsstarken Modelle an nachgelagerte Aufgaben zunehmend wichtiger. In diesem Artikel untersuchen wir ein prinzipielles Feinabstimmungs-Paradigma – Orthogonale Feinabstimmung (Orthogonal Finetuning, OFT) – für die Anpassung an nachgelagerte Aufgaben. Obwohl OFT eine gute Generalisierbarkeit zeigt, verwendet es aufgrund der hohen Dimensionalität orthogonaler Matrizen immer noch eine recht große Anzahl trainierbarer Parameter. Um dies zu adressieren, beginnen wir damit, OFT aus einer Informationsübertragungsperspektive zu betrachten und identifizieren dann einige Schlüsselkriterien, die eine bessere Parameter-Effizienz ermöglichen. Inspiriert davon, wie der Cooley-Tukey-Algorithmus für die schnelle Fourier-Transformation eine effiziente Informationsübertragung ermöglicht, schlagen wir eine effiziente orthogonale Parametrisierung unter Verwendung von Butterfly-Strukturen vor. Wir wenden diese Parametrisierung auf OFT an und schaffen so eine neuartige, parameter-effiziente Feinabstimmungsmethode, genannt Orthogonal Butterfly (BOFT). Indem BOFT OFT als Spezialfall umfasst, führt es einen verallgemeinerten Rahmen für orthogonale Feinabstimmung ein. Schließlich führen wir eine umfangreiche empirische Studie durch, in der wir große Vision-Transformer, große Sprachmodelle und Text-zu-Bild-Diffusionsmodelle an verschiedene nachgelagerte Aufgaben in den Bereichen Vision und Sprache anpassen.
English
Large foundation models are becoming ubiquitous, but training them from scratch is prohibitively expensive. Thus, efficiently adapting these powerful models to downstream tasks is increasingly important. In this paper, we study a principled finetuning paradigm -- Orthogonal Finetuning (OFT) -- for downstream task adaptation. Despite demonstrating good generalizability, OFT still uses a fairly large number of trainable parameters due to the high dimensionality of orthogonal matrices. To address this, we start by examining OFT from an information transmission perspective, and then identify a few key desiderata that enable better parameter-efficiency. Inspired by how the Cooley-Tukey fast Fourier transform algorithm enables efficient information transmission, we propose an efficient orthogonal parameterization using butterfly structures. We apply this parameterization to OFT, creating a novel parameter-efficient finetuning method, called Orthogonal Butterfly (BOFT). By subsuming OFT as a special case, BOFT introduces a generalized orthogonal finetuning framework. Finally, we conduct an extensive empirical study of adapting large vision transformers, large language models, and text-to-image diffusion models to various downstream tasks in vision and language.
PDF221December 15, 2024