BitDelta: Je Fine-Tune Mogelijk Slechts Één Bit Waard

Samenvatting

Grote Taalmodellen (LLMs) worden doorgaans in twee fasen getraind: pre-training op grote datasets van internetschaal, en fine-tuning voor downstream taken. Gezien de hogere rekenkundige eisen van pre-training, is het intuïtief om aan te nemen dat fine-tuning minder nieuwe informatie aan het model toevoegt, en dus beter comprimeerbaar is. We onderzoeken deze aanname door de gewichten van fine-tuned modellen te ontbinden in hun pre-trained componenten en een aanvullende delta. We introduceren een eenvoudige methode, BitDelta, die deze delta succesvol kwantiseert tot 1 bit zonder de prestaties aan te tasten. Deze interessante bevinding benadrukt niet alleen de potentiële redundantie van informatie die tijdens fine-tuning wordt toegevoegd, maar heeft ook significante implicaties voor multi-tenant serving en opslag van fine-tuned modellen. Door het gebruik van een enkel hoog-precisie basismodel te combineren met meerdere 1-bit delta's, reduceert BitDelta de GPU-geheugenvereisten drastisch met meer dan 10x, wat ook kan worden vertaald naar verbeterde generatielatentie in multi-tenant omgevingen. We valideren BitDelta via experimenten met de Llama-2 en Mistral model families, en op modellen tot 70B parameters, waarbij minimale prestatievermindering wordt aangetoond in alle geteste omgevingen.

English

Large Language Models (LLMs) are typically trained in two phases: pre-training on large internet-scale datasets, and fine-tuning for downstream tasks. Given the higher computational demand of pre-training, it's intuitive to assume that fine-tuning adds less new information to the model, and is thus more compressible. We explore this assumption by decomposing the weights of fine-tuned models into their pre-trained components and an additional delta. We introduce a simple method, BitDelta, which successfully quantizes this delta down to 1 bit without compromising performance. This interesting finding not only highlights the potential redundancy of information added during fine-tuning, but also has significant implications for the multi-tenant serving and multi-tenant storage of fine-tuned models. By enabling the use of a single high-precision base model accompanied by multiple 1-bit deltas, BitDelta dramatically reduces GPU memory requirements by more than 10x, which can also be translated to enhanced generation latency in multi-tenant settings. We validate BitDelta through experiments across Llama-2 and Mistral model families, and on models up to 70B parameters, showcasing minimal performance degradation over all tested settings.

BitDelta: Je Fine-Tune Mogelijk Slechts Één Bit Waard

BitDelta: Your Fine-Tune May Only Be Worth One Bit

Samenvatting

Support