BitDelta: Seu Ajuste Fino Pode Valer Apenas Um Bit
BitDelta: Your Fine-Tune May Only Be Worth One Bit
February 15, 2024
Autores: James Liu, Guangxuan Xiao, Kai Li, Jason D. Lee, Song Han, Tri Dao, Tianle Cai
cs.AI
Resumo
Modelos de Linguagem de Grande Escala (LLMs) são tipicamente treinados em duas fases: pré-treinamento em grandes conjuntos de dados em escala da internet e ajuste fino para tarefas específicas. Dada a maior demanda computacional do pré-treinamento, é intuitivo supor que o ajuste fino adiciona menos informações novas ao modelo e, portanto, é mais compressível. Exploramos essa suposição decompondo os pesos dos modelos ajustados em seus componentes pré-treinados e um delta adicional. Introduzimos um método simples, BitDelta, que quantiza com sucesso esse delta para 1 bit sem comprometer o desempenho. Essa descoberta interessante não apenas destaca a potencial redundância de informações adicionadas durante o ajuste fino, mas também tem implicações significativas para o atendimento e armazenamento multi-inquilino de modelos ajustados. Ao permitir o uso de um único modelo base de alta precisão acompanhado por múltiplos deltas de 1 bit, o BitDelta reduz drasticamente os requisitos de memória da GPU em mais de 10 vezes, o que também pode se traduzir em uma latência de geração aprimorada em configurações multi-inquilino. Validamos o BitDelta por meio de experimentos nas famílias de modelos Llama-2 e Mistral, e em modelos com até 70 bilhões de parâmetros, demonstrando degradação mínima de desempenho em todos os cenários testados.
English
Large Language Models (LLMs) are typically trained in two phases:
pre-training on large internet-scale datasets, and fine-tuning for downstream
tasks. Given the higher computational demand of pre-training, it's intuitive to
assume that fine-tuning adds less new information to the model, and is thus
more compressible. We explore this assumption by decomposing the weights of
fine-tuned models into their pre-trained components and an additional delta. We
introduce a simple method, BitDelta, which successfully quantizes this delta
down to 1 bit without compromising performance. This interesting finding not
only highlights the potential redundancy of information added during
fine-tuning, but also has significant implications for the multi-tenant serving
and multi-tenant storage of fine-tuned models. By enabling the use of a single
high-precision base model accompanied by multiple 1-bit deltas, BitDelta
dramatically reduces GPU memory requirements by more than 10x, which can also
be translated to enhanced generation latency in multi-tenant settings. We
validate BitDelta through experiments across Llama-2 and Mistral model
families, and on models up to 70B parameters, showcasing minimal performance
degradation over all tested settings.