ChatPaper.aiChatPaper

Trans-LoRA: hacia un ajuste fino eficiente en parámetros transferible sin necesidad de datos

Trans-LoRA: towards data-free Transferable Parameter Efficient Finetuning

May 27, 2024
Autores: Runqian Wang, Soumya Ghosh, David Cox, Diego Antognini, Aude Oliva, Rogerio Feris, Leonid Karlinsky
cs.AI

Resumen

Los adaptadores de bajo rango (LoRA) y sus variantes son técnicas populares de ajuste fino eficiente en parámetros (PEFT) que igualan de cerca el rendimiento del ajuste fino completo del modelo, mientras requieren solo un pequeño número de parámetros adicionales. Estos parámetros adicionales de LoRA son específicos del modelo base que se está adaptando. Cuando el modelo base necesita ser descontinuado y reemplazado por uno nuevo, todos los módulos LoRA asociados deben ser reentrenados. Este reentrenamiento requiere acceso a los datos utilizados para entrenar el LoRA para el modelo base original. Esto es especialmente problemático para aplicaciones comerciales en la nube donde los módulos LoRA y los modelos base son alojados por proveedores de servicios que pueden no estar autorizados a almacenar datos de tareas propietarias de los clientes. Para abordar este desafío, proponemos Trans-LoRA, un método novedoso para la transferencia sin pérdidas y casi sin datos de LoRAs entre modelos base. Nuestro enfoque se basa en datos sintéticos para transferir módulos LoRA. Utilizando modelos de lenguaje grandes, diseñamos un generador de datos sintéticos para aproximar el proceso de generación de datos del subconjunto de datos de la tarea observada. El entrenamiento en el conjunto de datos sintéticos resultante transfiere los módulos LoRA a nuevos modelos. Mostramos la efectividad de nuestro enfoque utilizando tanto las familias de modelos LLama como Gemma. Nuestro enfoque logra una transferencia de LoRA sin pérdidas (en su mayoría mejorada) entre modelos dentro y entre diferentes familias de modelos base, e incluso entre diferentes métodos PEFT, en una amplia variedad de tareas.
English
Low-rank adapters (LoRA) and their variants are popular parameter-efficient fine-tuning (PEFT) techniques that closely match full model fine-tune performance while requiring only a small number of additional parameters. These additional LoRA parameters are specific to the base model being adapted. When the base model needs to be deprecated and replaced with a new one, all the associated LoRA modules need to be re-trained. Such re-training requires access to the data used to train the LoRA for the original base model. This is especially problematic for commercial cloud applications where the LoRA modules and the base models are hosted by service providers who may not be allowed to host proprietary client task data. To address this challenge, we propose Trans-LoRA -- a novel method for lossless, nearly data-free transfer of LoRAs across base models. Our approach relies on synthetic data to transfer LoRA modules. Using large language models, we design a synthetic data generator to approximate the data-generating process of the observed task data subset. Training on the resulting synthetic dataset transfers LoRA modules to new models. We show the effectiveness of our approach using both LLama and Gemma model families. Our approach achieves lossless (mostly improved) LoRA transfer between models within and across different base model families, and even between different PEFT methods, on a wide variety of tasks.

Summary

AI-Generated Summary

PDF170December 12, 2024