MultiLoRA: Democratizando LoRA para un Mejor Aprendizaje Multitarea
MultiLoRA: Democratizing LoRA for Better Multi-Task Learning
November 20, 2023
Autores: Yiming Wang, Yu Lin, Xiaodong Zeng, Guannan Zhang
cs.AI
Resumen
LoRA logra una eficiencia de recursos notable y un rendimiento comparable al adaptar LLMs para tareas específicas. Desde que ChatGPT demostró un rendimiento superior en diversas tareas, ha crecido el deseo de adaptar un solo modelo para todas las tareas. Sin embargo, el rango bajo explícito de LoRA limita el rendimiento de adaptación en escenarios complejos de múltiples tareas. LoRA está dominado por un pequeño número de vectores singulares principales, mientras que el ajuste fino se descompone en un conjunto de transformaciones unitarias menos importantes. En este artículo, proponemos MultiLoRA para una mejor adaptación multi-tarea al reducir el dominio de los vectores singulares principales observado en LoRA. MultiLoRA escala los módulos de LoRA horizontalmente y cambia la inicialización de parámetros de las matrices de adaptación para reducir la dependencia de parámetros, lo que produce subespacios unitarios más equilibrados. Sin precedentes, construimos datos de entrenamiento especializados mezclando conjuntos de datos de seguimiento de instrucciones, comprensión del lenguaje natural y conocimiento del mundo, para cubrir muestras semántica y sintácticamente diferentes. Con solo un 2.5% de parámetros adicionales, MultiLoRA supera a las contrapartes de LoRA única y al ajuste fino en múltiples benchmarks y escalas de modelos. Una investigación más profunda sobre las matrices de actualización de pesos de MultiLoRA muestra una menor dependencia de los vectores singulares principales y contribuciones más democráticas de las transformaciones unitarias.
English
LoRA achieves remarkable resource efficiency and comparable performance when
adapting LLMs for specific tasks. Since ChatGPT demonstrated superior
performance on various tasks, there has been a growing desire to adapt one
model for all tasks. However, the explicit low-rank of LoRA limits the
adaptation performance in complex multi-task scenarios. LoRA is dominated by a
small number of top singular vectors while fine-tuning decomposes into a set of
less important unitary transforms. In this paper, we propose MultiLoRA for
better multi-task adaptation by reducing the dominance of top singular vectors
observed in LoRA. MultiLoRA scales LoRA modules horizontally and change
parameter initialization of adaptation matrices to reduce parameter dependency,
thus yields more balanced unitary subspaces. We unprecedentedly construct
specialized training data by mixing datasets of instruction follow, natural
language understanding, world knowledge, to cover semantically and
syntactically different samples. With only 2.5% of additional parameters,
MultiLoRA outperforms single LoRA counterparts and fine-tuning on multiple
benchmarks and model scales. Further investigation into weight update matrices
of MultiLoRA exhibits reduced dependency on top singular vectors and more
democratic unitary transform contributions.