KaSA: Adaptação de Valor Singular Consciente do Conhecimento de Modelos de Linguagem de Grande Escala
KaSA: Knowledge-Aware Singular-Value Adaptation of Large Language Models
December 8, 2024
Autores: Fan Wang, Juyong Jiang, Chansung Park, Sunghun Kim, Jing Tang
cs.AI
Resumo
O aumento do tamanho dos grandes modelos de linguagem (LLMs) resulta em sobrecarga computacional significativa e uso de memória ao adaptar esses modelos a tarefas ou domínios específicos. Vários métodos de ajuste fino eficientes em parâmetros (PEFT) foram desenvolvidos para mitigar esses desafios, treinando um pequeno conjunto de parâmetros para as atualizações específicas da tarefa dos pesos do modelo. Entre os métodos PEFT, o LoRA se destaca por sua simplicidade e eficiência, inspirando o desenvolvimento de uma série de variantes. No entanto, o LoRA e seus sucessores desconsideram o conhecimento que é ruidoso ou irrelevante para a tarefa alvo, impactando negativamente o desempenho do modelo e levando à suboptimalidade. Para lidar com essa limitação, apresentamos o Método de Adaptação de Valor Singular Consciente do Conhecimento (KaSA), um método PEFT que aproveita a decomposição em valores singulares (SVD) com valores singulares conscientes do conhecimento para ativar dinamicamente o conhecimento com base em sua relevância para a tarefa em questão. Realizamos experimentos extensivos em uma variedade de LLMs em tarefas abrangendo compreensão de linguagem natural (NLU), geração (NLG), seguimento de instruções e raciocínio do senso comum. Os resultados experimentais demonstram que o KaSA supera consistentemente o FFT e 14 baselines populares de PEFT em 16 benchmarks e 4 conjuntos de dados sintéticos, destacando a eficácia e adaptabilidade de nosso método. O código-fonte de nosso método está disponível em https://github.com/juyongjiang/KaSA.
English
The increasing sizes of large language models (LLMs) result in significant
computational overhead and memory usage when adapting these models to specific
tasks or domains. Various parameter-efficient fine-tuning (PEFT) methods have
been devised to mitigate these challenges by training a small set of parameters
for the task-specific updates of the model weights. Among PEFT methods, LoRA
stands out for its simplicity and efficiency, inspiring the development of a
series of variants. However, LoRA and its successors disregard the knowledge
that is noisy or irrelevant to the targeted task, detrimentally impacting model
performance and leading to suboptimality. To address this limitation, we
introduce Knowledge-aware Singular-value Adaptation (KaSA), a PEFT method that
leverages singular value decomposition (SVD) with knowledge-aware singular
values to dynamically activate knowledge based on its relevance to the task at
hand. We conduct extensive experiments across a range of LLMs on tasks spanning
natural language understanding (NLU), generation (NLG), instruction following,
and commonsense reasoning. The experimental results demonstrate that KaSA
consistently outperforms FFT and 14 popular PEFT baselines across 16 benchmarks
and 4 synthetic datasets, underscoring our method's efficacy and adaptability.
The source code of our method is available at
https://github.com/juyongjiang/KaSA.Summary
AI-Generated Summary