KaSA: Адаптация сингулярных значений с учетом знаний крупных языковых моделей
KaSA: Knowledge-Aware Singular-Value Adaptation of Large Language Models
December 8, 2024
Авторы: Fan Wang, Juyong Jiang, Chansung Park, Sunghun Kim, Jing Tang
cs.AI
Аннотация
Увеличение размеров крупных моделей языков (LLMs) приводит к значительным вычислительным затратам и использованию памяти при адаптации этих моделей к конкретным задачам или областям. Были разработаны различные методы эффективной настройки параметров (PEFT), чтобы смягчить эти проблемы, обучая небольшой набор параметров для задачеспецифических обновлений весов модели. Среди методов PEFT выделяется LoRA своей простотой и эффективностью, вдохновляя разработку ряда вариантов. Однако LoRA и его преемники игнорируют знания, которые являются шумными или несущественными для целевой задачи, что негативно сказывается на производительности модели и приводит к субоптимальным результатам. Для преодоления этого ограничения мы представляем метод настройки параметров с учетом знаний (KaSA), который использует сингулярное разложение (SVD) с учетом знаний о сингулярных значениях для динамической активации знаний на основе их релевантности для текущей задачи. Мы проводим обширные эксперименты на различных LLMs по задачам в области понимания естественного языка (NLU), генерации (NLG), следования инструкциям и рассуждения на здравый смысл. Экспериментальные результаты показывают, что KaSA последовательно превосходит FFT и 14 популярных базовых методов PEFT на 16 бенчмарках и 4 синтетических наборах данных, подчеркивая эффективность и адаптивность нашего метода. Исходный код нашего метода доступен по адресу https://github.com/juyongjiang/KaSA.
English
The increasing sizes of large language models (LLMs) result in significant
computational overhead and memory usage when adapting these models to specific
tasks or domains. Various parameter-efficient fine-tuning (PEFT) methods have
been devised to mitigate these challenges by training a small set of parameters
for the task-specific updates of the model weights. Among PEFT methods, LoRA
stands out for its simplicity and efficiency, inspiring the development of a
series of variants. However, LoRA and its successors disregard the knowledge
that is noisy or irrelevant to the targeted task, detrimentally impacting model
performance and leading to suboptimality. To address this limitation, we
introduce Knowledge-aware Singular-value Adaptation (KaSA), a PEFT method that
leverages singular value decomposition (SVD) with knowledge-aware singular
values to dynamically activate knowledge based on its relevance to the task at
hand. We conduct extensive experiments across a range of LLMs on tasks spanning
natural language understanding (NLU), generation (NLG), instruction following,
and commonsense reasoning. The experimental results demonstrate that KaSA
consistently outperforms FFT and 14 popular PEFT baselines across 16 benchmarks
and 4 synthetic datasets, underscoring our method's efficacy and adaptability.
The source code of our method is available at
https://github.com/juyongjiang/KaSA.Summary
AI-Generated Summary