ChatPaper.aiChatPaper

GIFT-SW: Gaussiaans ruis Geïnjecteerde Fijnafstemming van Belangrijke Gewichten voor LLM's

GIFT-SW: Gaussian noise Injected Fine-Tuning of Salient Weights for LLMs

August 27, 2024
Auteurs: Maxim Zhelnin, Viktor Moskvoretskii, Egor Shvetsov, Egor Venediktov, Mariya Krylova, Aleksandr Zuev, Evgeny Burnaev
cs.AI

Samenvatting

Parameter Efficient Fine-Tuning (PEFT) methoden hebben aan populariteit gewonnen en het gebruik van Large Language Models (LLMs) gedemocratiseerd. Recente studies hebben aangetoond dat een kleine subset van gewichten een significante invloed heeft op de prestaties. Gebaseerd op deze observatie introduceren we een nieuwe PEFT-methode, genaamd Gaussian noise Injected Fine Tuning of Salient Weights (GIFT-SW). Onze methode werkt alleen de belangrijke kolommen bij, terwijl Gaussiaanse ruis wordt geïnjecteerd in de niet-belangrijke kolommen. Om deze kolommen te identificeren, hebben we een gegeneraliseerde gevoeligheidsmetriek ontwikkeld die metriek uit eerdere studies uitbreidt en verenigt. Experimenten met LLaMA-modellen laten zien dat GIFT-SW zowel volledige fine-tuning als moderne PEFT-methoden overtreft binnen hetzelfde rekenbudget. Bovendien biedt GIFT-SW praktische voordelen om de prestaties van modellen die onderworpen zijn aan mixed-precision kwantisatie te herstellen, terwijl de belangrijke gewichten in volledige precisie worden gehouden.
English
Parameter Efficient Fine-Tuning (PEFT) methods have gained popularity and democratized the usage of Large Language Models (LLMs). Recent studies have shown that a small subset of weights significantly impacts performance. Based on this observation, we introduce a novel PEFT method, called Gaussian noise Injected Fine Tuning of Salient Weights (GIFT-SW). Our method updates only salient columns, while injecting Gaussian noise into non-salient ones. To identify these columns, we developeda generalized sensitivity metric that extends and unifies metrics from previous studies. Experiments with LLaMA models demonstrate that GIFT-SW outperforms full fine-tuning and modern PEFT methods under the same computational budget. Moreover, GIFT-SW offers practical advantages to recover performance of models subjected to mixed-precision quantization with keeping salient weights in full precision.

Summary

AI-Generated Summary

PDF33November 16, 2024