Una Inicialización para Dominarlos a Todos: Ajuste Fino a través de la Varianza Explicada - Adaptación
One Initialization to Rule them All: Fine-tuning via Explained Variance Adaptation
October 9, 2024
Autores: Fabian Paischer, Lukas Hauzenberger, Thomas Schmied, Benedikt Alkin, Marc Peter Deisenroth, Sepp Hochreiter
cs.AI
Resumen
Los modelos base (FMs) se pre-entrenan en conjuntos de datos a gran escala y luego se ajustan en una tarea secundaria para una aplicación específica. El método de ajuste más exitoso y comúnmente utilizado consiste en actualizar los pesos pre-entrenados a través de una adaptación de bajo rango (LoRA). LoRA introduce nuevas matrices de peso que generalmente se inicializan al azar con una distribución de rango uniforme en todos los pesos del modelo. Trabajos recientes se centran en la inicialización basada en pesos o en el aprendizaje de rangos adaptativos durante el entrenamiento. Ambos enfoques solo se han investigado de forma aislada, lo que resulta en una convergencia lenta o una distribución de rango uniforme, lo que a su vez lleva a un rendimiento subóptimo. Proponemos mejorar LoRA inicializando los nuevos pesos de manera basada en datos mediante la descomposición en valores singulares en mini lotes de vectores de activación. Luego, inicializamos las matrices LoRA con los vectores singulares derechos obtenidos y redistribuimos los rangos entre todas las matrices de peso para explicar la máxima cantidad de varianza y continuar con el procedimiento estándar de ajuste fino de LoRA. Esto da lugar a nuestro nuevo método de Adaptación de Varianza Explicada (EVA). Aplicamos EVA a una variedad de tareas de ajuste fino que van desde la generación y comprensión del lenguaje hasta la clasificación de imágenes y el aprendizaje por refuerzo. EVA muestra una convergencia más rápida que los competidores y alcanza la puntuación promedio más alta en una multitud de tareas por dominio.
English
Foundation models (FMs) are pre-trained on large-scale datasets and then
fine-tuned on a downstream task for a specific application. The most successful
and most commonly used fine-tuning method is to update the pre-trained weights
via a low-rank adaptation (LoRA). LoRA introduces new weight matrices that are
usually initialized at random with a uniform rank distribution across model
weights. Recent works focus on weight-driven initialization or learning of
adaptive ranks during training. Both approaches have only been investigated in
isolation, resulting in slow convergence or a uniform rank distribution, in
turn leading to sub-optimal performance. We propose to enhance LoRA by
initializing the new weights in a data-driven manner by computing singular
value decomposition on minibatches of activation vectors. Then, we initialize
the LoRA matrices with the obtained right-singular vectors and re-distribute
ranks among all weight matrices to explain the maximal amount of variance and
continue the standard LoRA fine-tuning procedure. This results in our new
method Explained Variance Adaptation (EVA). We apply EVA to a variety of
fine-tuning tasks ranging from language generation and understanding to image
classification and reinforcement learning. EVA exhibits faster convergence than
competitors and attains the highest average score across a multitude of tasks
per domain.Summary
AI-Generated Summary