GIFT-SW: Ajuste Fino de Pesos Relevantes en LLMs mediante Inyección de Ruido Gaussiano
GIFT-SW: Gaussian noise Injected Fine-Tuning of Salient Weights for LLMs
August 27, 2024
Autores: Maxim Zhelnin, Viktor Moskvoretskii, Egor Shvetsov, Egor Venediktov, Mariya Krylova, Aleksandr Zuev, Evgeny Burnaev
cs.AI
Resumen
Los métodos de Ajuste Fino Eficiente de Parámetros (PEFT, por sus siglas en inglés) han ganado popularidad y democratizado el uso de Modelos de Lenguaje Grandes (LLMs). Estudios recientes han demostrado que un pequeño subconjunto de pesos impacta significativamente en el rendimiento. Basándonos en esta observación, presentamos un nuevo método PEFT, llamado Ajuste Fino con Inyección de Ruido Gaussiano de Pesos Relevantes (GIFT-SW). Nuestro método actualiza solo columnas relevantes, mientras inyecta ruido gaussiano en las no relevantes. Para identificar estas columnas, desarrollamos una métrica de sensibilidad generalizada que extiende y unifica métricas de estudios previos. Experimentos con modelos LLaMA demuestran que GIFT-SW supera al ajuste fino completo y a métodos modernos de PEFT bajo el mismo presupuesto computacional. Además, GIFT-SW ofrece ventajas prácticas para recuperar el rendimiento de modelos sometidos a cuantización de precisión mixta manteniendo los pesos relevantes en precisión completa.
English
Parameter Efficient Fine-Tuning (PEFT) methods have gained popularity and
democratized the usage of Large Language Models (LLMs). Recent studies have
shown that a small subset of weights significantly impacts performance. Based
on this observation, we introduce a novel PEFT method, called Gaussian noise
Injected Fine Tuning of Salient Weights (GIFT-SW). Our method updates only
salient columns, while injecting Gaussian noise into non-salient ones. To
identify these columns, we developeda generalized sensitivity metric that
extends and unifies metrics from previous studies. Experiments with LLaMA
models demonstrate that GIFT-SW outperforms full fine-tuning and modern PEFT
methods under the same computational budget. Moreover, GIFT-SW offers practical
advantages to recover performance of models subjected to mixed-precision
quantization with keeping salient weights in full precision.Summary
AI-Generated Summary