ChatPaper.aiChatPaper

KaSA: Kennisbewuste Singular-Value Aanpassing van Grote Taalmodellen

KaSA: Knowledge-Aware Singular-Value Adaptation of Large Language Models

December 8, 2024
Auteurs: Fan Wang, Juyong Jiang, Chansung Park, Sunghun Kim, Jing Tang
cs.AI

Samenvatting

De toenemende omvang van grote taalmodellen (LLM's) leidt tot aanzienlijke rekenkundige overhead en geheugengebruik bij het aanpassen van deze modellen aan specifieke taken of domeinen. Diverse parameter-efficiënte fine-tuning (PEFT) methoden zijn ontwikkeld om deze uitdagingen te verlichten door een klein aantal parameters te trainen voor de taakspecifieke updates van de modelgewichten. Onder de PEFT methoden valt LoRA op door zijn eenvoud en efficiëntie, wat heeft geleid tot de ontwikkeling van een reeks varianten. Echter, LoRA en zijn opvolgers verwaarlozen de kennis die ruisachtig of irrelevant is voor de beoogde taak, wat nadelig is voor de modelprestaties en leidt tot suboptimaliteit. Om deze beperking aan te pakken, introduceren wij Kennisbewuste Singular-value Adaptatie (KaSA), een PEFT methode die gebruikmaakt van singular value decompositie (SVD) met kennisbewuste singular values om kennis dynamisch te activeren op basis van de relevantie ervan voor de taak die wordt uitgevoerd. We voeren uitgebreide experimenten uit over een reeks LLM's op taken die variëren van natuurlijke taalbegrip (NLU), generatie (NLG), instructieopvolging en gezond verstand redenering. De experimentele resultaten tonen aan dat KaSA consequent beter presteert dan FFT en 14 populaire PEFT baselines over 16 benchmarks en 4 synthetische datasets, waarbij de doeltreffendheid en aanpasbaarheid van onze methode worden benadrukt. De broncode van onze methode is beschikbaar op https://github.com/juyongjiang/KaSA.
English
The increasing sizes of large language models (LLMs) result in significant computational overhead and memory usage when adapting these models to specific tasks or domains. Various parameter-efficient fine-tuning (PEFT) methods have been devised to mitigate these challenges by training a small set of parameters for the task-specific updates of the model weights. Among PEFT methods, LoRA stands out for its simplicity and efficiency, inspiring the development of a series of variants. However, LoRA and its successors disregard the knowledge that is noisy or irrelevant to the targeted task, detrimentally impacting model performance and leading to suboptimality. To address this limitation, we introduce Knowledge-aware Singular-value Adaptation (KaSA), a PEFT method that leverages singular value decomposition (SVD) with knowledge-aware singular values to dynamically activate knowledge based on its relevance to the task at hand. We conduct extensive experiments across a range of LLMs on tasks spanning natural language understanding (NLU), generation (NLG), instruction following, and commonsense reasoning. The experimental results demonstrate that KaSA consistently outperforms FFT and 14 popular PEFT baselines across 16 benchmarks and 4 synthetic datasets, underscoring our method's efficacy and adaptability. The source code of our method is available at https://github.com/juyongjiang/KaSA.
PDF92December 12, 2024