LoRA учится меньше и забывает меньше.
LoRA Learns Less and Forgets Less
May 15, 2024
Авторы: Dan Biderman, Jose Gonzalez Ortiz, Jacob Portes, Mansheej Paul, Philip Greengard, Connor Jennings, Daniel King, Sam Havens, Vitaliy Chiley, Jonathan Frankle, Cody Blakeney, John P. Cunningham
cs.AI
Аннотация
Метод адаптации низкого ранга (Low-Rank Adaptation, LoRA) является широко используемым методом эффективной настройки параметров для больших языковых моделей. LoRA экономит память, обучая только низкоранговые возмущения выбранным матрицам весов. В данной работе мы сравниваем производительность LoRA и полной настройки на двух целевых областях, программировании и математике. Мы рассматриваем как настройку по инструкциям (примерно 100 тыс. пар запрос-ответ), так и продолжение предварительного обучения (примерно 10 млрд структурированных токенов). Наши результаты показывают, что в большинстве случаев LoRA значительно уступает полной настройке. Тем не менее, LoRA обладает желательной формой регуляризации: он лучше сохраняет производительность базовой модели на задачах вне целевой области. Мы показываем, что LoRA обеспечивает более сильную регуляризацию по сравнению с общими техниками, такими как уменьшение весов и отсев; он также помогает сохранить более разнообразные генерации. Мы показываем, что полная настройка обучает возмущения с рангом, который в 10-100 раз превышает типичные конфигурации LoRA, что, возможно, объясняет некоторые из отмеченных разрывов. Мы заключаем работу, предлагая лучшие практики для настройки с использованием LoRA.
English
Low-Rank Adaptation (LoRA) is a widely-used parameter-efficient finetuning
method for large language models. LoRA saves memory by training only low rank
perturbations to selected weight matrices. In this work, we compare the
performance of LoRA and full finetuning on two target domains, programming and
mathematics. We consider both the instruction finetuning (approx100K
prompt-response pairs) and continued pretraining (approx10B unstructured
tokens) data regimes. Our results show that, in most settings, LoRA
substantially underperforms full finetuning. Nevertheless, LoRA exhibits a
desirable form of regularization: it better maintains the base model's
performance on tasks outside the target domain. We show that LoRA provides
stronger regularization compared to common techniques such as weight decay and
dropout; it also helps maintain more diverse generations. We show that full
finetuning learns perturbations with a rank that is 10-100X greater than
typical LoRA configurations, possibly explaining some of the reported gaps. We
conclude by proposing best practices for finetuning with LoRA.Summary
AI-Generated Summary