BitDelta : Votre réglage fin ne vaut peut-être qu'un seul bit
BitDelta: Your Fine-Tune May Only Be Worth One Bit
February 15, 2024
Auteurs: James Liu, Guangxuan Xiao, Kai Li, Jason D. Lee, Song Han, Tri Dao, Tianle Cai
cs.AI
Résumé
Les modèles de langage de grande taille (LLMs) sont généralement entraînés en deux phases : un pré-entraînement sur des ensembles de données massives à l'échelle d'Internet, puis un ajustement fin pour des tâches spécifiques. Étant donné la demande computationnelle plus élevée du pré-entraînement, il est intuitif de supposer que l'ajustement fin ajoute moins de nouvelles informations au modèle, et est donc plus compressible. Nous explorons cette hypothèse en décomposant les poids des modèles ajustés finement en leurs composants pré-entraînés et un delta supplémentaire. Nous introduisons une méthode simple, BitDelta, qui quantifie avec succès ce delta jusqu'à 1 bit sans compromettre les performances. Cette découverte intéressante met non seulement en évidence la redondance potentielle des informations ajoutées lors de l'ajustement fin, mais a également des implications significatives pour le service multi-locataire et le stockage multi-locataire des modèles ajustés finement. En permettant l'utilisation d'un seul modèle de base de haute précision accompagné de plusieurs deltas de 1 bit, BitDelta réduit considérablement les besoins en mémoire GPU de plus de 10 fois, ce qui peut également se traduire par une latence de génération améliorée dans des configurations multi-locataires. Nous validons BitDelta à travers des expériences sur les familles de modèles Llama-2 et Mistral, et sur des modèles allant jusqu'à 70 milliards de paramètres, démontrant une dégradation minimale des performances dans tous les contextes testés.
English
Large Language Models (LLMs) are typically trained in two phases:
pre-training on large internet-scale datasets, and fine-tuning for downstream
tasks. Given the higher computational demand of pre-training, it's intuitive to
assume that fine-tuning adds less new information to the model, and is thus
more compressible. We explore this assumption by decomposing the weights of
fine-tuned models into their pre-trained components and an additional delta. We
introduce a simple method, BitDelta, which successfully quantizes this delta
down to 1 bit without compromising performance. This interesting finding not
only highlights the potential redundancy of information added during
fine-tuning, but also has significant implications for the multi-tenant serving
and multi-tenant storage of fine-tuned models. By enabling the use of a single
high-precision base model accompanied by multiple 1-bit deltas, BitDelta
dramatically reduces GPU memory requirements by more than 10x, which can also
be translated to enhanced generation latency in multi-tenant settings. We
validate BitDelta through experiments across Llama-2 and Mistral model
families, and on models up to 70B parameters, showcasing minimal performance
degradation over all tested settings.Summary
AI-Generated Summary