ChatPaper.aiChatPaper

GIFT-SW: Ajuste Fino de Pesos Relevantes en LLMs mediante Inyección de Ruido Gaussiano

GIFT-SW: Gaussian noise Injected Fine-Tuning of Salient Weights for LLMs

August 27, 2024
Autores: Maxim Zhelnin, Viktor Moskvoretskii, Egor Shvetsov, Egor Venediktov, Mariya Krylova, Aleksandr Zuev, Evgeny Burnaev
cs.AI

Resumen

Los métodos de Ajuste Fino Eficiente de Parámetros (PEFT, por sus siglas en inglés) han ganado popularidad y democratizado el uso de Modelos de Lenguaje Grandes (LLMs). Estudios recientes han demostrado que un pequeño subconjunto de pesos impacta significativamente en el rendimiento. Basándonos en esta observación, presentamos un nuevo método PEFT, llamado Ajuste Fino con Inyección de Ruido Gaussiano de Pesos Relevantes (GIFT-SW). Nuestro método actualiza solo columnas relevantes, mientras inyecta ruido gaussiano en las no relevantes. Para identificar estas columnas, desarrollamos una métrica de sensibilidad generalizada que extiende y unifica métricas de estudios previos. Experimentos con modelos LLaMA demuestran que GIFT-SW supera al ajuste fino completo y a métodos modernos de PEFT bajo el mismo presupuesto computacional. Además, GIFT-SW ofrece ventajas prácticas para recuperar el rendimiento de modelos sometidos a cuantización de precisión mixta manteniendo los pesos relevantes en precisión completa.
English
Parameter Efficient Fine-Tuning (PEFT) methods have gained popularity and democratized the usage of Large Language Models (LLMs). Recent studies have shown that a small subset of weights significantly impacts performance. Based on this observation, we introduce a novel PEFT method, called Gaussian noise Injected Fine Tuning of Salient Weights (GIFT-SW). Our method updates only salient columns, while injecting Gaussian noise into non-salient ones. To identify these columns, we developeda generalized sensitivity metric that extends and unifies metrics from previous studies. Experiments with LLaMA models demonstrate that GIFT-SW outperforms full fine-tuning and modern PEFT methods under the same computational budget. Moreover, GIFT-SW offers practical advantages to recover performance of models subjected to mixed-precision quantization with keeping salient weights in full precision.

Summary

AI-Generated Summary

PDF33November 16, 2024