Одна Инициализация, Чтобы Править ими Всеми: Доводка через Объясненную Дисперсию Адаптация
One Initialization to Rule them All: Fine-tuning via Explained Variance Adaptation
October 9, 2024
Авторы: Fabian Paischer, Lukas Hauzenberger, Thomas Schmied, Benedikt Alkin, Marc Peter Deisenroth, Sepp Hochreiter
cs.AI
Аннотация
Модели основы (Foundation models, FMs) предварительно обучаются на масштабных наборах данных, а затем донастраиваются для конкретного приложения на задачу нижестоящего уровня. Самым успешным и наиболее часто используемым методом донастройки является обновление весов предварительного обучения с помощью метода низкоранговой адаптации (LoRA). LoRA вводит новые матрицы весов, которые обычно инициализируются случайным образом с равномерным распределением рангов по весовым моделям. Недавние работы сосредотачиваются на инициализации, зависящей от весов, или обучении адаптивных рангов во время обучения. Оба подхода рассматривались только изолированно, что приводило к медленной сходимости или равномерному распределению рангов, что в свою очередь приводило к субоптимальной производительности. Мы предлагаем улучшить LoRA, инициализируя новые веса способом, основанным на данных, путем вычисления сингулярного разложения на мини-пакетах векторов активации. Затем мы инициализируем матрицы LoRA полученными правыми сингулярными векторами и перераспределяем ранги среди всех матриц весов для объяснения максимального количества дисперсии и продолжаем стандартную процедуру донастройки LoRA. Это приводит к нашему новому методу - Адаптация объясненной дисперсии (Explained Variance Adaptation, EVA). Мы применяем EVA к различным задачам донастройки, начиная от генерации и понимания языка до классификации изображений и обучения с подкреплением. EVA демонстрирует более быструю сходимость по сравнению с конкурентами и достигает самого высокого среднего показателя по ряду задач в каждой области.
English
Foundation models (FMs) are pre-trained on large-scale datasets and then
fine-tuned on a downstream task for a specific application. The most successful
and most commonly used fine-tuning method is to update the pre-trained weights
via a low-rank adaptation (LoRA). LoRA introduces new weight matrices that are
usually initialized at random with a uniform rank distribution across model
weights. Recent works focus on weight-driven initialization or learning of
adaptive ranks during training. Both approaches have only been investigated in
isolation, resulting in slow convergence or a uniform rank distribution, in
turn leading to sub-optimal performance. We propose to enhance LoRA by
initializing the new weights in a data-driven manner by computing singular
value decomposition on minibatches of activation vectors. Then, we initialize
the LoRA matrices with the obtained right-singular vectors and re-distribute
ranks among all weight matrices to explain the maximal amount of variance and
continue the standard LoRA fine-tuning procedure. This results in our new
method Explained Variance Adaptation (EVA). We apply EVA to a variety of
fine-tuning tasks ranging from language generation and understanding to image
classification and reinforcement learning. EVA exhibits faster convergence than
competitors and attains the highest average score across a multitude of tasks
per domain.Summary
AI-Generated Summary