BitDelta: Ihre Feinabstimmung könnte nur ein Bit wert sein
BitDelta: Your Fine-Tune May Only Be Worth One Bit
February 15, 2024
Autoren: James Liu, Guangxuan Xiao, Kai Li, Jason D. Lee, Song Han, Tri Dao, Tianle Cai
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) werden typischerweise in zwei Phasen trainiert:
Pre-Training auf großen, internetbasierten Datensätzen und Feinabstimmung für
nachgelagerte Aufgaben. Angesichts des höheren Rechenaufwands beim Pre-Training
liegt die Annahme nahe, dass die Feinabstimmung weniger neue Informationen zum
Modell hinzufügt und somit besser komprimierbar ist. Wir untersuchen diese
Annahme, indem wir die Gewichte feinabgestimmter Modelle in ihre pre-trainierten
Komponenten und ein zusätzliches Delta zerlegen. Wir stellen eine einfache
Methode, BitDelta, vor, die dieses Delta erfolgreich auf 1 Bit quantisiert, ohne
die Leistung zu beeinträchtigen. Diese interessante Erkenntnis unterstreicht
nicht nur die potenzielle Redundanz der während der Feinabstimmung hinzugefügten
Informationen, sondern hat auch bedeutende Auswirkungen auf das Multi-Tenant-
Serving und die Multi-Tenant-Speicherung feinabgestimmter Modelle. Indem BitDelta
die Verwendung eines einzigen hochpräzisen Basismodells in Kombination mit
mehreren 1-Bit-Deltas ermöglicht, reduziert es den GPU-Speicherbedarf um mehr als
das 10-fache, was sich auch in einer verbesserten Generierungslatenz in Multi-
Tenant-Umgebungen niederschlägt. Wir validieren BitDelta durch Experimente mit
den Modellfamilien Llama-2 und Mistral sowie mit Modellen bis zu 70B Parametern
und zeigen dabei eine minimale Leistungsbeeinträchtigung in allen getesteten
Einstellungen.
English
Large Language Models (LLMs) are typically trained in two phases:
pre-training on large internet-scale datasets, and fine-tuning for downstream
tasks. Given the higher computational demand of pre-training, it's intuitive to
assume that fine-tuning adds less new information to the model, and is thus
more compressible. We explore this assumption by decomposing the weights of
fine-tuned models into their pre-trained components and an additional delta. We
introduce a simple method, BitDelta, which successfully quantizes this delta
down to 1 bit without compromising performance. This interesting finding not
only highlights the potential redundancy of information added during
fine-tuning, but also has significant implications for the multi-tenant serving
and multi-tenant storage of fine-tuned models. By enabling the use of a single
high-precision base model accompanied by multiple 1-bit deltas, BitDelta
dramatically reduces GPU memory requirements by more than 10x, which can also
be translated to enhanced generation latency in multi-tenant settings. We
validate BitDelta through experiments across Llama-2 and Mistral model
families, and on models up to 70B parameters, showcasing minimal performance
degradation over all tested settings.Summary
AI-Generated Summary