KaSA: Kennisbewuste Singular-Value Aanpassing van Grote Taalmodellen
KaSA: Knowledge-Aware Singular-Value Adaptation of Large Language Models
December 8, 2024
Auteurs: Fan Wang, Juyong Jiang, Chansung Park, Sunghun Kim, Jing Tang
cs.AI
Samenvatting
De toenemende omvang van grote taalmodellen (LLM's) leidt tot aanzienlijke rekenkundige overhead en geheugengebruik bij het aanpassen van deze modellen aan specifieke taken of domeinen. Diverse parameter-efficiënte fine-tuning (PEFT) methoden zijn ontwikkeld om deze uitdagingen te verlichten door een klein aantal parameters te trainen voor de taakspecifieke updates van de modelgewichten. Onder de PEFT methoden valt LoRA op door zijn eenvoud en efficiëntie, wat heeft geleid tot de ontwikkeling van een reeks varianten. Echter, LoRA en zijn opvolgers verwaarlozen de kennis die ruisachtig of irrelevant is voor de beoogde taak, wat nadelig is voor de modelprestaties en leidt tot suboptimaliteit. Om deze beperking aan te pakken, introduceren wij Kennisbewuste Singular-value Adaptatie (KaSA), een PEFT methode die gebruikmaakt van singular value decompositie (SVD) met kennisbewuste singular values om kennis dynamisch te activeren op basis van de relevantie ervan voor de taak die wordt uitgevoerd. We voeren uitgebreide experimenten uit over een reeks LLM's op taken die variëren van natuurlijke taalbegrip (NLU), generatie (NLG), instructieopvolging en gezond verstand redenering. De experimentele resultaten tonen aan dat KaSA consequent beter presteert dan FFT en 14 populaire PEFT baselines over 16 benchmarks en 4 synthetische datasets, waarbij de doeltreffendheid en aanpasbaarheid van onze methode worden benadrukt. De broncode van onze methode is beschikbaar op https://github.com/juyongjiang/KaSA.
English
The increasing sizes of large language models (LLMs) result in significant
computational overhead and memory usage when adapting these models to specific
tasks or domains. Various parameter-efficient fine-tuning (PEFT) methods have
been devised to mitigate these challenges by training a small set of parameters
for the task-specific updates of the model weights. Among PEFT methods, LoRA
stands out for its simplicity and efficiency, inspiring the development of a
series of variants. However, LoRA and its successors disregard the knowledge
that is noisy or irrelevant to the targeted task, detrimentally impacting model
performance and leading to suboptimality. To address this limitation, we
introduce Knowledge-aware Singular-value Adaptation (KaSA), a PEFT method that
leverages singular value decomposition (SVD) with knowledge-aware singular
values to dynamically activate knowledge based on its relevance to the task at
hand. We conduct extensive experiments across a range of LLMs on tasks spanning
natural language understanding (NLU), generation (NLG), instruction following,
and commonsense reasoning. The experimental results demonstrate that KaSA
consistently outperforms FFT and 14 popular PEFT baselines across 16 benchmarks
and 4 synthetic datasets, underscoring our method's efficacy and adaptability.
The source code of our method is available at
https://github.com/juyongjiang/KaSA.