ChatPaper.aiChatPaper

Optimisation paramétrique efficace par orthogonalisation via factorisation papillon

Parameter-Efficient Orthogonal Finetuning via Butterfly Factorization

November 10, 2023
Auteurs: Weiyang Liu, Zeju Qiu, Yao Feng, Yuliang Xiu, Yuxuan Xue, Longhui Yu, Haiwen Feng, Zhen Liu, Juyeon Heo, Songyou Peng, Yandong Wen, Michael J. Black, Adrian Weller, Bernhard Schölkopf
cs.AI

Résumé

Les grands modèles de base deviennent omniprésents, mais leur entraînement à partir de zéro est prohibitivement coûteux. Ainsi, l'adaptation efficace de ces modèles puissants à des tâches en aval est de plus en plus importante. Dans cet article, nous étudions un paradigme de réglage fin (finetuning) fondé sur des principes -- le réglage fin orthogonal (Orthogonal Finetuning, OFT) -- pour l'adaptation à des tâches en aval. Bien qu'il démontre une bonne généralisabilité, l'OFT utilise encore un nombre relativement important de paramètres entraînables en raison de la dimensionnalité élevée des matrices orthogonales. Pour remédier à cela, nous commençons par examiner l'OFT sous l'angle de la transmission d'information, puis identifions quelques desiderata clés qui permettent une meilleure efficacité en termes de paramètres. Inspirés par la manière dont l'algorithme de transformée de Fourier rapide de Cooley-Tukey permet une transmission efficace de l'information, nous proposons une paramétrisation orthogonale efficace utilisant des structures en papillon (butterfly). Nous appliquons cette paramétrisation à l'OFT, créant ainsi une nouvelle méthode de réglage fin économe en paramètres, appelée Orthogonal Butterfly (BOFT). En englobant l'OFT comme un cas particulier, le BOFT introduit un cadre généralisé de réglage fin orthogonal. Enfin, nous menons une étude empirique approfondie sur l'adaptation de grands transformeurs de vision, de grands modèles de langage et de modèles de diffusion texte-image à diverses tâches en aval dans les domaines de la vision et du langage.
English
Large foundation models are becoming ubiquitous, but training them from scratch is prohibitively expensive. Thus, efficiently adapting these powerful models to downstream tasks is increasingly important. In this paper, we study a principled finetuning paradigm -- Orthogonal Finetuning (OFT) -- for downstream task adaptation. Despite demonstrating good generalizability, OFT still uses a fairly large number of trainable parameters due to the high dimensionality of orthogonal matrices. To address this, we start by examining OFT from an information transmission perspective, and then identify a few key desiderata that enable better parameter-efficiency. Inspired by how the Cooley-Tukey fast Fourier transform algorithm enables efficient information transmission, we propose an efficient orthogonal parameterization using butterfly structures. We apply this parameterization to OFT, creating a novel parameter-efficient finetuning method, called Orthogonal Butterfly (BOFT). By subsuming OFT as a special case, BOFT introduces a generalized orthogonal finetuning framework. Finally, we conduct an extensive empirical study of adapting large vision transformers, large language models, and text-to-image diffusion models to various downstream tasks in vision and language.
PDF221December 15, 2024