ChatPaper.aiChatPaper

GIFT-SW: Тонкая настройка выдающихся весов для LLM с инъекцией гауссовского шума

GIFT-SW: Gaussian noise Injected Fine-Tuning of Salient Weights for LLMs

August 27, 2024
Авторы: Maxim Zhelnin, Viktor Moskvoretskii, Egor Shvetsov, Egor Venediktov, Mariya Krylova, Aleksandr Zuev, Evgeny Burnaev
cs.AI

Аннотация

Методы Параметрически Эффективной Настройки (PEFT) стали популярными и демократизировали использование Больших Языковых Моделей (LLM). Недавние исследования показали, что небольшой поднабор весов значительно влияет на производительность. Исходя из этого наблюдения, мы представляем новый метод PEFT, называемый Внедрением Гауссовского Шума для Точных Весов (GIFT-SW). Наш метод обновляет только значимые столбцы, в то время как вводит гауссовский шум в незначимые. Для идентификации этих столбцов мы разработали обобщенную метрику чувствительности, которая расширяет и объединяет метрики из предыдущих исследований. Эксперименты с моделями LLaMA показывают, что GIFT-SW превосходит полную настройку и современные методы PEFT при том же вычислительном бюджете. Более того, GIFT-SW предлагает практические преимущества для восстановления производительности моделей, подвергнутых квантованию смешанной точности, сохраняя точные веса в полной точности.
English
Parameter Efficient Fine-Tuning (PEFT) methods have gained popularity and democratized the usage of Large Language Models (LLMs). Recent studies have shown that a small subset of weights significantly impacts performance. Based on this observation, we introduce a novel PEFT method, called Gaussian noise Injected Fine Tuning of Salient Weights (GIFT-SW). Our method updates only salient columns, while injecting Gaussian noise into non-salient ones. To identify these columns, we developeda generalized sensitivity metric that extends and unifies metrics from previous studies. Experiments with LLaMA models demonstrate that GIFT-SW outperforms full fine-tuning and modern PEFT methods under the same computational budget. Moreover, GIFT-SW offers practical advantages to recover performance of models subjected to mixed-precision quantization with keeping salient weights in full precision.

Summary

AI-Generated Summary

PDF33November 16, 2024