BitDelta: Il tuo Fine-Tuning Potrebbe Valere Solo un Bit
BitDelta: Your Fine-Tune May Only Be Worth One Bit
February 15, 2024
Autori: James Liu, Guangxuan Xiao, Kai Li, Jason D. Lee, Song Han, Tri Dao, Tianle Cai
cs.AI
Abstract
I Large Language Model (LLM) vengono tipicamente addestrati in due fasi: pre-training su grandi dataset di scala internet e fine-tuning per task specifici. Considerando il maggiore fabbisogno computazionale del pre-training, è intuitivo assumere che il fine-tuning aggiunga meno nuove informazioni al modello, rendendolo quindi più comprimibile. Esploriamo questa ipotesi scomponendo i pesi dei modelli fine-tunati nei loro componenti pre-addestrati e in un delta aggiuntivo. Introduciamo un metodo semplice, BitDelta, che quantizza con successo questo delta fino a 1 bit senza compromettere le prestazioni. Questo interessante risultato non solo evidenzia la potenziale ridondanza delle informazioni aggiunte durante il fine-tuning, ma ha anche implicazioni significative per il servizio multi-tenant e lo storage multi-tenant dei modelli fine-tunati. Consentendo l'uso di un singolo modello base ad alta precisione accompagnato da più delta a 1 bit, BitDelta riduce drasticamente i requisiti di memoria GPU di oltre 10 volte, il che può tradursi anche in una latenza di generazione migliorata in contesti multi-tenant. Validiamo BitDelta attraverso esperimenti sulle famiglie di modelli Llama-2 e Mistral, e su modelli fino a 70 miliardi di parametri, dimostrando un degrado minimo delle prestazioni in tutte le configurazioni testate.
English
Large Language Models (LLMs) are typically trained in two phases:
pre-training on large internet-scale datasets, and fine-tuning for downstream
tasks. Given the higher computational demand of pre-training, it's intuitive to
assume that fine-tuning adds less new information to the model, and is thus
more compressible. We explore this assumption by decomposing the weights of
fine-tuned models into their pre-trained components and an additional delta. We
introduce a simple method, BitDelta, which successfully quantizes this delta
down to 1 bit without compromising performance. This interesting finding not
only highlights the potential redundancy of information added during
fine-tuning, but also has significant implications for the multi-tenant serving
and multi-tenant storage of fine-tuned models. By enabling the use of a single
high-precision base model accompanied by multiple 1-bit deltas, BitDelta
dramatically reduces GPU memory requirements by more than 10x, which can also
be translated to enhanced generation latency in multi-tenant settings. We
validate BitDelta through experiments across Llama-2 and Mistral model
families, and on models up to 70B parameters, showcasing minimal performance
degradation over all tested settings.