MultiLoRA: Демократизация LoRA для улучшения многозадачного обучения
MultiLoRA: Democratizing LoRA for Better Multi-Task Learning
November 20, 2023
Авторы: Yiming Wang, Yu Lin, Xiaodong Zeng, Guannan Zhang
cs.AI
Аннотация
LoRA демонстрирует выдающуюся эффективность использования ресурсов и сопоставимую производительность при адаптации больших языковых моделей (LLM) для конкретных задач. С тех пор как ChatGPT показал превосходную производительность в различных задачах, возникло растущее желание адаптировать одну модель для всех задач. Однако явная низкая ранговая структура LoRA ограничивает производительность адаптации в сложных сценариях с множеством задач. LoRA в значительной степени определяется небольшим количеством ведущих сингулярных векторов, в то время как тонкая настройка разлагается на набор менее значимых унитарных преобразований. В данной статье мы предлагаем MultiLoRA для улучшения адаптации к множеству задач, уменьшая доминирование ведущих сингулярных векторов, наблюдаемое в LoRA. MultiLoRA масштабирует модули LoRA горизонтально и изменяет инициализацию параметров адаптационных матриц для снижения зависимости параметров, что приводит к более сбалансированным унитарным подпространствам. Мы впервые создаем специализированные обучающие данные, смешивая наборы данных для выполнения инструкций, понимания естественного языка и знаний о мире, чтобы охватить семантически и синтаксически различные образцы. Всего с 2,5% дополнительных параметров MultiLoRA превосходит одиночные аналоги LoRA и тонкую настройку на нескольких тестовых наборах и масштабах моделей. Дальнейшее исследование матриц обновления весов MultiLoRA показывает снижение зависимости от ведущих сингулярных векторов и более равномерный вклад унитарных преобразований.
English
LoRA achieves remarkable resource efficiency and comparable performance when
adapting LLMs for specific tasks. Since ChatGPT demonstrated superior
performance on various tasks, there has been a growing desire to adapt one
model for all tasks. However, the explicit low-rank of LoRA limits the
adaptation performance in complex multi-task scenarios. LoRA is dominated by a
small number of top singular vectors while fine-tuning decomposes into a set of
less important unitary transforms. In this paper, we propose MultiLoRA for
better multi-task adaptation by reducing the dominance of top singular vectors
observed in LoRA. MultiLoRA scales LoRA modules horizontally and change
parameter initialization of adaptation matrices to reduce parameter dependency,
thus yields more balanced unitary subspaces. We unprecedentedly construct
specialized training data by mixing datasets of instruction follow, natural
language understanding, world knowledge, to cover semantically and
syntactically different samples. With only 2.5% of additional parameters,
MultiLoRA outperforms single LoRA counterparts and fine-tuning on multiple
benchmarks and model scales. Further investigation into weight update matrices
of MultiLoRA exhibits reduced dependency on top singular vectors and more
democratic unitary transform contributions.