ChatPaper.aiChatPaper

GIFT-SW : Ajustement fin des poids saillants pour les LLM avec injection de bruit gaussien

GIFT-SW: Gaussian noise Injected Fine-Tuning of Salient Weights for LLMs

August 27, 2024
Auteurs: Maxim Zhelnin, Viktor Moskvoretskii, Egor Shvetsov, Egor Venediktov, Mariya Krylova, Aleksandr Zuev, Evgeny Burnaev
cs.AI

Résumé

Les méthodes de Fine-Tuning à Paramètres Efficaces (PEFT) ont gagné en popularité et démocratisé l'utilisation des Grands Modèles de Langage (LLMs). Des études récentes ont montré qu'un petit sous-ensemble de poids a un impact significatif sur les performances. Sur la base de cette observation, nous introduisons une nouvelle méthode PEFT, appelée Injection de Bruit Gaussien pour le Fine-Tuning des Poids Saliants (GIFT-SW). Notre méthode met à jour uniquement les colonnes saliantes, tout en injectant du bruit gaussien dans celles qui ne le sont pas. Pour identifier ces colonnes, nous avons développé une métrique de sensibilité généralisée qui étend et unifie les métriques des études précédentes. Des expériences avec les modèles LLaMA démontrent que GIFT-SW surpasse le fine-tuning complet et les méthodes PEFT modernes avec le même budget computationnel. De plus, GIFT-SW offre des avantages pratiques pour restaurer les performances des modèles soumis à une quantification en précision mixte tout en conservant les poids saillants en pleine précision.
English
Parameter Efficient Fine-Tuning (PEFT) methods have gained popularity and democratized the usage of Large Language Models (LLMs). Recent studies have shown that a small subset of weights significantly impacts performance. Based on this observation, we introduce a novel PEFT method, called Gaussian noise Injected Fine Tuning of Salient Weights (GIFT-SW). Our method updates only salient columns, while injecting Gaussian noise into non-salient ones. To identify these columns, we developeda generalized sensitivity metric that extends and unifies metrics from previous studies. Experiments with LLaMA models demonstrate that GIFT-SW outperforms full fine-tuning and modern PEFT methods under the same computational budget. Moreover, GIFT-SW offers practical advantages to recover performance of models subjected to mixed-precision quantization with keeping salient weights in full precision.

Summary

AI-Generated Summary

PDF33November 16, 2024