BitDelta: Je Fine-Tune Mogelijk Slechts Één Bit Waard
BitDelta: Your Fine-Tune May Only Be Worth One Bit
February 15, 2024
Auteurs: James Liu, Guangxuan Xiao, Kai Li, Jason D. Lee, Song Han, Tri Dao, Tianle Cai
cs.AI
Samenvatting
Grote Taalmodellen (LLMs) worden doorgaans in twee fasen getraind:
pre-training op grote datasets van internetschaal, en fine-tuning voor downstream taken.
Gezien de hogere rekenkundige eisen van pre-training, is het intuïtief om aan te nemen dat fine-tuning minder nieuwe informatie aan het model toevoegt, en dus beter comprimeerbaar is.
We onderzoeken deze aanname door de gewichten van fine-tuned modellen te ontbinden in hun pre-trained componenten en een aanvullende delta.
We introduceren een eenvoudige methode, BitDelta, die deze delta succesvol kwantiseert tot 1 bit zonder de prestaties aan te tasten.
Deze interessante bevinding benadrukt niet alleen de potentiële redundantie van informatie die tijdens fine-tuning wordt toegevoegd, maar heeft ook significante implicaties voor multi-tenant serving en opslag van fine-tuned modellen.
Door het gebruik van een enkel hoog-precisie basismodel te combineren met meerdere 1-bit delta's, reduceert BitDelta de GPU-geheugenvereisten drastisch met meer dan 10x, wat ook kan worden vertaald naar verbeterde generatielatentie in multi-tenant omgevingen.
We valideren BitDelta via experimenten met de Llama-2 en Mistral model families, en op modellen tot 70B parameters, waarbij minimale prestatievermindering wordt aangetoond in alle geteste omgevingen.
English
Large Language Models (LLMs) are typically trained in two phases:
pre-training on large internet-scale datasets, and fine-tuning for downstream
tasks. Given the higher computational demand of pre-training, it's intuitive to
assume that fine-tuning adds less new information to the model, and is thus
more compressible. We explore this assumption by decomposing the weights of
fine-tuned models into their pre-trained components and an additional delta. We
introduce a simple method, BitDelta, which successfully quantizes this delta
down to 1 bit without compromising performance. This interesting finding not
only highlights the potential redundancy of information added during
fine-tuning, but also has significant implications for the multi-tenant serving
and multi-tenant storage of fine-tuned models. By enabling the use of a single
high-precision base model accompanied by multiple 1-bit deltas, BitDelta
dramatically reduces GPU memory requirements by more than 10x, which can also
be translated to enhanced generation latency in multi-tenant settings. We
validate BitDelta through experiments across Llama-2 and Mistral model
families, and on models up to 70B parameters, showcasing minimal performance
degradation over all tested settings.