BitDelta: Seu Ajuste Fino Pode Valer Apenas Um Bit

Resumo

Modelos de Linguagem de Grande Escala (LLMs) são tipicamente treinados em duas fases: pré-treinamento em grandes conjuntos de dados em escala da internet e ajuste fino para tarefas específicas. Dada a maior demanda computacional do pré-treinamento, é intuitivo supor que o ajuste fino adiciona menos informações novas ao modelo e, portanto, é mais compressível. Exploramos essa suposição decompondo os pesos dos modelos ajustados em seus componentes pré-treinados e um delta adicional. Introduzimos um método simples, BitDelta, que quantiza com sucesso esse delta para 1 bit sem comprometer o desempenho. Essa descoberta interessante não apenas destaca a potencial redundância de informações adicionadas durante o ajuste fino, mas também tem implicações significativas para o atendimento e armazenamento multi-inquilino de modelos ajustados. Ao permitir o uso de um único modelo base de alta precisão acompanhado por múltiplos deltas de 1 bit, o BitDelta reduz drasticamente os requisitos de memória da GPU em mais de 10 vezes, o que também pode se traduzir em uma latência de geração aprimorada em configurações multi-inquilino. Validamos o BitDelta por meio de experimentos nas famílias de modelos Llama-2 e Mistral, e em modelos com até 70 bilhões de parâmetros, demonstrando degradação mínima de desempenho em todos os cenários testados.

English

Large Language Models (LLMs) are typically trained in two phases: pre-training on large internet-scale datasets, and fine-tuning for downstream tasks. Given the higher computational demand of pre-training, it's intuitive to assume that fine-tuning adds less new information to the model, and is thus more compressible. We explore this assumption by decomposing the weights of fine-tuned models into their pre-trained components and an additional delta. We introduce a simple method, BitDelta, which successfully quantizes this delta down to 1 bit without compromising performance. This interesting finding not only highlights the potential redundancy of information added during fine-tuning, but also has significant implications for the multi-tenant serving and multi-tenant storage of fine-tuned models. By enabling the use of a single high-precision base model accompanied by multiple 1-bit deltas, BitDelta dramatically reduces GPU memory requirements by more than 10x, which can also be translated to enhanced generation latency in multi-tenant settings. We validate BitDelta through experiments across Llama-2 and Mistral model families, and on models up to 70B parameters, showcasing minimal performance degradation over all tested settings.

BitDelta: Seu Ajuste Fino Pode Valer Apenas Um Bit

BitDelta: Your Fine-Tune May Only Be Worth One Bit

Resumo

Support