BitDelta: Tu Ajuste Fino Podría Valer Solo un Bit
BitDelta: Your Fine-Tune May Only Be Worth One Bit
February 15, 2024
Autores: James Liu, Guangxuan Xiao, Kai Li, Jason D. Lee, Song Han, Tri Dao, Tianle Cai
cs.AI
Resumen
Los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) suelen entrenarse en dos fases: preentrenamiento en grandes conjuntos de datos a escala de internet y ajuste fino para tareas específicas. Dada la mayor demanda computacional del preentrenamiento, es intuitivo suponer que el ajuste fino agrega menos información nueva al modelo y, por lo tanto, es más compresible. Exploramos esta suposición descomponiendo los pesos de los modelos ajustados en sus componentes preentrenados y un delta adicional. Introducimos un método simple, BitDelta, que cuantiza exitosamente este delta a 1 bit sin comprometer el rendimiento. Este hallazgo interesante no solo resalta la posible redundancia de la información agregada durante el ajuste fino, sino que también tiene implicaciones significativas para el servicio y almacenamiento multiinquilino de modelos ajustados. Al permitir el uso de un único modelo base de alta precisión acompañado de múltiples deltas de 1 bit, BitDelta reduce drásticamente los requisitos de memoria GPU en más de 10 veces, lo que también puede traducirse en una latencia de generación mejorada en entornos multiinquilino. Validamos BitDelta mediante experimentos en las familias de modelos Llama-2 y Mistral, y en modelos de hasta 70B parámetros, demostrando una degradación mínima del rendimiento en todos los escenarios probados.
English
Large Language Models (LLMs) are typically trained in two phases:
pre-training on large internet-scale datasets, and fine-tuning for downstream
tasks. Given the higher computational demand of pre-training, it's intuitive to
assume that fine-tuning adds less new information to the model, and is thus
more compressible. We explore this assumption by decomposing the weights of
fine-tuned models into their pre-trained components and an additional delta. We
introduce a simple method, BitDelta, which successfully quantizes this delta
down to 1 bit without compromising performance. This interesting finding not
only highlights the potential redundancy of information added during
fine-tuning, but also has significant implications for the multi-tenant serving
and multi-tenant storage of fine-tuned models. By enabling the use of a single
high-precision base model accompanied by multiple 1-bit deltas, BitDelta
dramatically reduces GPU memory requirements by more than 10x, which can also
be translated to enhanced generation latency in multi-tenant settings. We
validate BitDelta through experiments across Llama-2 and Mistral model
families, and on models up to 70B parameters, showcasing minimal performance
degradation over all tested settings.