ChatPaper.aiChatPaper

Эффективная настройка параметров через ортогональную факторизацию с использованием бабочкообразной структуры

Parameter-Efficient Orthogonal Finetuning via Butterfly Factorization

November 10, 2023
Авторы: Weiyang Liu, Zeju Qiu, Yao Feng, Yuliang Xiu, Yuxuan Xue, Longhui Yu, Haiwen Feng, Zhen Liu, Juyeon Heo, Songyou Peng, Yandong Wen, Michael J. Black, Adrian Weller, Bernhard Schölkopf
cs.AI

Аннотация

Крупные базовые модели становятся повсеместными, но их обучение с нуля требует непомерно высоких затрат. Поэтому эффективная адаптация этих мощных моделей для решения конкретных задач становится все более важной. В данной статье мы исследуем принципиальный подход к тонкой настройке — Ортогональную Тонкую Настройку (OFT) — для адаптации моделей к целевым задачам. Несмотря на демонстрацию хорошей обобщающей способности, OFT по-прежнему использует значительное количество обучаемых параметров из-за высокой размерности ортогональных матриц. Чтобы решить эту проблему, мы начинаем с анализа OFT с точки зрения передачи информации и выделяем несколько ключевых требований, которые позволяют повысить эффективность использования параметров. Вдохновленные тем, как алгоритм быстрого преобразования Фурье Кули-Тьюки обеспечивает эффективную передачу информации, мы предлагаем эффективную ортогональную параметризацию с использованием структур "бабочка". Мы применяем эту параметризацию к OFT, создавая новый метод тонкой настройки с высокой эффективностью параметров, называемый Ортогональная Бабочка (BOFT). Включая OFT как частный случай, BOFT представляет собой обобщенную структуру ортогональной тонкой настройки. Наконец, мы проводим обширное эмпирическое исследование адаптации крупных трансформеров для обработки изображений, крупных языковых моделей и моделей диффузии текста в изображения к различным целевым задачам в области зрения и языка.
English
Large foundation models are becoming ubiquitous, but training them from scratch is prohibitively expensive. Thus, efficiently adapting these powerful models to downstream tasks is increasingly important. In this paper, we study a principled finetuning paradigm -- Orthogonal Finetuning (OFT) -- for downstream task adaptation. Despite demonstrating good generalizability, OFT still uses a fairly large number of trainable parameters due to the high dimensionality of orthogonal matrices. To address this, we start by examining OFT from an information transmission perspective, and then identify a few key desiderata that enable better parameter-efficiency. Inspired by how the Cooley-Tukey fast Fourier transform algorithm enables efficient information transmission, we propose an efficient orthogonal parameterization using butterfly structures. We apply this parameterization to OFT, creating a novel parameter-efficient finetuning method, called Orthogonal Butterfly (BOFT). By subsuming OFT as a special case, BOFT introduces a generalized orthogonal finetuning framework. Finally, we conduct an extensive empirical study of adapting large vision transformers, large language models, and text-to-image diffusion models to various downstream tasks in vision and language.
PDF221December 15, 2024