ChatPaper.aiChatPaper

GIFT-SW: Ottimizzazione fine con iniezione di rumore gaussiano dei pesi salienti per LLM

GIFT-SW: Gaussian noise Injected Fine-Tuning of Salient Weights for LLMs

August 27, 2024
Autori: Maxim Zhelnin, Viktor Moskvoretskii, Egor Shvetsov, Egor Venediktov, Mariya Krylova, Aleksandr Zuev, Evgeny Burnaev
cs.AI

Abstract

I metodi di Ottimizzazione Efficienti dei Parametri (PEFT) hanno guadagnato popolarità e democratizzato l'uso dei Grandi Modelli Linguistici (LLM). Studi recenti hanno dimostrato che un piccolo sottoinsieme di pesi influisce significativamente sulle prestazioni. Basandoci su questa osservazione, introduciamo un nuovo metodo PEFT, chiamato Ottimizzazione Fine con Iniezione di Rumore Gaussiano dei Pesi Salienti (GIFT-SW). Il nostro metodo aggiorna solo le colonne salienti, mentre inietta rumore gaussiano in quelle non salienti. Per identificare queste colonne, abbiamo sviluppato una metrica di sensibilità generalizzata che estende e unifica le metriche degli studi precedenti. Gli esperimenti con i modelli LLaMA dimostrano che GIFT-SW supera il pieno fine-tuning e i moderni metodi PEFT con lo stesso budget computazionale. Inoltre, GIFT-SW offre vantaggi pratici per recuperare le prestazioni dei modelli sottoposti a quantizzazione a precisione mista mantenendo i pesi salienti in piena precisione.
English
Parameter Efficient Fine-Tuning (PEFT) methods have gained popularity and democratized the usage of Large Language Models (LLMs). Recent studies have shown that a small subset of weights significantly impacts performance. Based on this observation, we introduce a novel PEFT method, called Gaussian noise Injected Fine Tuning of Salient Weights (GIFT-SW). Our method updates only salient columns, while injecting Gaussian noise into non-salient ones. To identify these columns, we developeda generalized sensitivity metric that extends and unifies metrics from previous studies. Experiments with LLaMA models demonstrate that GIFT-SW outperforms full fine-tuning and modern PEFT methods under the same computational budget. Moreover, GIFT-SW offers practical advantages to recover performance of models subjected to mixed-precision quantization with keeping salient weights in full precision.
PDF33November 16, 2024