LoRA aprende menos y olvida menos

Resumen

La Adaptación de Bajo Rango (LoRA, por sus siglas en inglés) es un método ampliamente utilizado para el ajuste fino eficiente en parámetros de modelos de lenguaje grandes. LoRA ahorra memoria al entrenar únicamente perturbaciones de bajo rango en matrices de pesos seleccionadas. En este trabajo, comparamos el rendimiento de LoRA y el ajuste fino completo en dos dominios objetivo: programación y matemáticas. Consideramos tanto el ajuste fino por instrucciones (aproximadamente 100K pares de instrucción-respuesta) como el régimen de preentrenamiento continuado (aproximadamente 10B tokens no estructurados). Nuestros resultados muestran que, en la mayoría de los casos, LoRA tiene un rendimiento sustancialmente inferior al ajuste fino completo. Sin embargo, LoRA exhibe una forma deseable de regularización: mantiene mejor el rendimiento del modelo base en tareas fuera del dominio objetivo. Demostramos que LoRA proporciona una regularización más fuerte en comparación con técnicas comunes como la decaimiento de pesos y el dropout; también ayuda a mantener generaciones más diversas. Mostramos que el ajuste fino completo aprende perturbaciones con un rango que es 10-100 veces mayor que las configuraciones típicas de LoRA, lo que posiblemente explica algunas de las brechas reportadas. Concluimos proponiendo mejores prácticas para el ajuste fino con LoRA.

English

Low-Rank Adaptation (LoRA) is a widely-used parameter-efficient finetuning method for large language models. LoRA saves memory by training only low rank perturbations to selected weight matrices. In this work, we compare the performance of LoRA and full finetuning on two target domains, programming and mathematics. We consider both the instruction finetuning (approx100K prompt-response pairs) and continued pretraining (approx10B unstructured tokens) data regimes. Our results show that, in most settings, LoRA substantially underperforms full finetuning. Nevertheless, LoRA exhibits a desirable form of regularization: it better maintains the base model's performance on tasks outside the target domain. We show that LoRA provides stronger regularization compared to common techniques such as weight decay and dropout; it also helps maintain more diverse generations. We show that full finetuning learns perturbations with a rank that is 10-100X greater than typical LoRA configurations, possibly explaining some of the reported gaps. We conclude by proposing best practices for finetuning with LoRA.

LoRA aprende menos y olvida menos

LoRA Learns Less and Forgets Less

Resumen

Support