ChatPaper.aiChatPaper

GIFT-SW: Feinabstimmung von herausragenden Gewichten für LLMs durch Einspritzen von Gaussischem Rauschen

GIFT-SW: Gaussian noise Injected Fine-Tuning of Salient Weights for LLMs

August 27, 2024
Autoren: Maxim Zhelnin, Viktor Moskvoretskii, Egor Shvetsov, Egor Venediktov, Mariya Krylova, Aleksandr Zuev, Evgeny Burnaev
cs.AI

Zusammenfassung

Parameter Efficient Fine-Tuning (PEFT)-Methoden haben an Popularität gewonnen und die Nutzung von Large Language Models (LLMs) demokratisiert. Aktuelle Studien haben gezeigt, dass eine kleine Untermenge von Gewichten die Leistung signifikant beeinflusst. Basierend auf dieser Beobachtung stellen wir eine neuartige PEFT-Methode vor, die als "Gaussian noise Injected Fine Tuning of Salient Weights" (GIFT-SW) bezeichnet wird. Unsere Methode aktualisiert nur herausragende Spalten, während sie Gaußsches Rauschen in nicht herausragende einfügt. Um diese Spalten zu identifizieren, haben wir eine verallgemeinerte Sensitivitätsmetrik entwickelt, die Metriken aus früheren Studien erweitert und vereinheitlicht. Experimente mit LLaMA-Modellen zeigen, dass GIFT-SW eine bessere Leistung erbringt als vollständiges Feintuning und moderne PEFT-Methoden bei gleichem Rechenaufwand. Darüber hinaus bietet GIFT-SW praktische Vorteile, um die Leistung von Modellen, die einer Quantisierung mit gemischter Präzision unterzogen wurden, wiederherzustellen, indem herausragende Gewichte in voller Präzision beibehalten werden.
English
Parameter Efficient Fine-Tuning (PEFT) methods have gained popularity and democratized the usage of Large Language Models (LLMs). Recent studies have shown that a small subset of weights significantly impacts performance. Based on this observation, we introduce a novel PEFT method, called Gaussian noise Injected Fine Tuning of Salient Weights (GIFT-SW). Our method updates only salient columns, while injecting Gaussian noise into non-salient ones. To identify these columns, we developeda generalized sensitivity metric that extends and unifies metrics from previous studies. Experiments with LLaMA models demonstrate that GIFT-SW outperforms full fine-tuning and modern PEFT methods under the same computational budget. Moreover, GIFT-SW offers practical advantages to recover performance of models subjected to mixed-precision quantization with keeping salient weights in full precision.

Summary

AI-Generated Summary

PDF33November 16, 2024