ChatPaper.aiChatPaper

KaSA: 知識を考慮した大規模言語モデルの特異値適応

KaSA: Knowledge-Aware Singular-Value Adaptation of Large Language Models

December 8, 2024
著者: Fan Wang, Juyong Jiang, Chansung Park, Sunghun Kim, Jing Tang
cs.AI

要旨

大規模言語モデル(LLM)のサイズの増加は、これらのモデルを特定のタスクやドメインに適応させる際に著しい計算オーバーヘッドとメモリ使用量をもたらします。さまざまなパラメータ効率の良いファインチューニング(PEFT)手法が開発されており、これらの課題を軽減するためにモデルの重みのタスク固有の更新のために少数のパラメータをトレーニングすることが提案されています。PEFT手法の中で、LoRAはその単純さと効率性で際立っており、一連の派生手法の開発を促しています。しかし、LoRAおよびその後継者は、ターゲットとするタスクにノイズや関連性のない知識を無視しており、モデルのパフォーマンスに悪影響を及ぼし、最適化の達成を妨げています。この制限に対処するために、私たちはKnowledge-aware Singular-value Adaptation(KaSA)を導入します。KaSAは、特定のタスクにおける関連性に基づいて知識を動的に活性化するために特異値分解(SVD)を活用するPEFT手法です。私たちは、自然言語理解(NLU)、生成(NLG)、命令の遵守、常識的推論を含むタスクにわたるLLMの範囲で幅広い実験を実施します。実験結果は、KaSAが16のベンチマークと4つの合成データセットにわたるFFTおよび14の一般的なPEFTベースラインを一貫して上回ることを示し、当社の手法の効果と適応性を強調しています。当社の手法のソースコードは、https://github.com/juyongjiang/KaSA で入手可能です。
English
The increasing sizes of large language models (LLMs) result in significant computational overhead and memory usage when adapting these models to specific tasks or domains. Various parameter-efficient fine-tuning (PEFT) methods have been devised to mitigate these challenges by training a small set of parameters for the task-specific updates of the model weights. Among PEFT methods, LoRA stands out for its simplicity and efficiency, inspiring the development of a series of variants. However, LoRA and its successors disregard the knowledge that is noisy or irrelevant to the targeted task, detrimentally impacting model performance and leading to suboptimality. To address this limitation, we introduce Knowledge-aware Singular-value Adaptation (KaSA), a PEFT method that leverages singular value decomposition (SVD) with knowledge-aware singular values to dynamically activate knowledge based on its relevance to the task at hand. We conduct extensive experiments across a range of LLMs on tasks spanning natural language understanding (NLU), generation (NLG), instruction following, and commonsense reasoning. The experimental results demonstrate that KaSA consistently outperforms FFT and 14 popular PEFT baselines across 16 benchmarks and 4 synthetic datasets, underscoring our method's efficacy and adaptability. The source code of our method is available at https://github.com/juyongjiang/KaSA.

Summary

AI-Generated Summary

PDF92December 12, 2024