Одна Инициализация, Чтобы Править ими Всеми: Доводка через Объясненную Дисперсию Адаптация

Аннотация

Модели основы (Foundation models, FMs) предварительно обучаются на масштабных наборах данных, а затем донастраиваются для конкретного приложения на задачу нижестоящего уровня. Самым успешным и наиболее часто используемым методом донастройки является обновление весов предварительного обучения с помощью метода низкоранговой адаптации (LoRA). LoRA вводит новые матрицы весов, которые обычно инициализируются случайным образом с равномерным распределением рангов по весовым моделям. Недавние работы сосредотачиваются на инициализации, зависящей от весов, или обучении адаптивных рангов во время обучения. Оба подхода рассматривались только изолированно, что приводило к медленной сходимости или равномерному распределению рангов, что в свою очередь приводило к субоптимальной производительности. Мы предлагаем улучшить LoRA, инициализируя новые веса способом, основанным на данных, путем вычисления сингулярного разложения на мини-пакетах векторов активации. Затем мы инициализируем матрицы LoRA полученными правыми сингулярными векторами и перераспределяем ранги среди всех матриц весов для объяснения максимального количества дисперсии и продолжаем стандартную процедуру донастройки LoRA. Это приводит к нашему новому методу - Адаптация объясненной дисперсии (Explained Variance Adaptation, EVA). Мы применяем EVA к различным задачам донастройки, начиная от генерации и понимания языка до классификации изображений и обучения с подкреплением. EVA демонстрирует более быструю сходимость по сравнению с конкурентами и достигает самого высокого среднего показателя по ряду задач в каждой области.

English

Foundation models (FMs) are pre-trained on large-scale datasets and then fine-tuned on a downstream task for a specific application. The most successful and most commonly used fine-tuning method is to update the pre-trained weights via a low-rank adaptation (LoRA). LoRA introduces new weight matrices that are usually initialized at random with a uniform rank distribution across model weights. Recent works focus on weight-driven initialization or learning of adaptive ranks during training. Both approaches have only been investigated in isolation, resulting in slow convergence or a uniform rank distribution, in turn leading to sub-optimal performance. We propose to enhance LoRA by initializing the new weights in a data-driven manner by computing singular value decomposition on minibatches of activation vectors. Then, we initialize the LoRA matrices with the obtained right-singular vectors and re-distribute ranks among all weight matrices to explain the maximal amount of variance and continue the standard LoRA fine-tuning procedure. This results in our new method Explained Variance Adaptation (EVA). We apply EVA to a variety of fine-tuning tasks ranging from language generation and understanding to image classification and reinforcement learning. EVA exhibits faster convergence than competitors and attains the highest average score across a multitude of tasks per domain.

Одна Инициализация, Чтобы Править ими Всеми: Доводка через Объясненную Дисперсию Адаптация

One Initialization to Rule them All: Fine-tuning via Explained Variance Adaptation

Аннотация

Support