ChatPaper.aiChatPaper

GIFT-SW: Ajuste Fino de Pesos Salientes com Injeção de Ruído Gaussiano para LLMs

GIFT-SW: Gaussian noise Injected Fine-Tuning of Salient Weights for LLMs

August 27, 2024
Autores: Maxim Zhelnin, Viktor Moskvoretskii, Egor Shvetsov, Egor Venediktov, Mariya Krylova, Aleksandr Zuev, Evgeny Burnaev
cs.AI

Resumo

Os métodos de Ajuste Fino Eficiente de Parâmetros (PEFT) ganharam popularidade e democratizaram o uso de Modelos de Linguagem Grandes (LLMs). Estudos recentes mostraram que um pequeno subconjunto de pesos impacta significativamente no desempenho. Com base nessa observação, apresentamos um novo método PEFT, chamado de Ajuste Fino Injetado com Ruído Gaussiano de Pesos Salientes (GIFT-SW). Nosso método atualiza apenas colunas salientes, enquanto injeta ruído gaussiano nas não salientes. Para identificar essas colunas, desenvolvemos uma métrica de sensibilidade generalizada que estende e unifica métricas de estudos anteriores. Experimentos com modelos LLaMA demonstram que o GIFT-SW supera o ajuste fino completo e os métodos modernos de PEFT sob o mesmo orçamento computacional. Além disso, o GIFT-SW oferece vantagens práticas para recuperar o desempenho de modelos submetidos à quantização de precisão mista mantendo os pesos salientes em plena precisão.
English
Parameter Efficient Fine-Tuning (PEFT) methods have gained popularity and democratized the usage of Large Language Models (LLMs). Recent studies have shown that a small subset of weights significantly impacts performance. Based on this observation, we introduce a novel PEFT method, called Gaussian noise Injected Fine Tuning of Salient Weights (GIFT-SW). Our method updates only salient columns, while injecting Gaussian noise into non-salient ones. To identify these columns, we developeda generalized sensitivity metric that extends and unifies metrics from previous studies. Experiments with LLaMA models demonstrate that GIFT-SW outperforms full fine-tuning and modern PEFT methods under the same computational budget. Moreover, GIFT-SW offers practical advantages to recover performance of models subjected to mixed-precision quantization with keeping salient weights in full precision.

Summary

AI-Generated Summary

PDF33November 16, 2024