BitDelta: Ваша тонкая настройка может стоить всего одного бита

Аннотация

Крупные языковые модели (LLM) обычно обучаются в два этапа: предварительное обучение на больших наборах данных интернет-масштаба и тонкая настройка для решения конкретных задач. Учитывая более высокие вычислительные затраты на предварительное обучение, интуитивно можно предположить, что тонкая настройка добавляет меньше новой информации в модель и, следовательно, является более сжимаемой. Мы исследуем это предположение, разлагая веса тонко настроенных моделей на их предварительно обученные компоненты и дополнительную дельту. Мы представляем простой метод, BitDelta, который успешно квантует эту дельту до 1 бита без ущерба для производительности. Этот интересный результат не только подчеркивает потенциальную избыточность информации, добавляемой в процессе тонкой настройки, но также имеет важные последствия для многопользовательского обслуживания и хранения тонко настроенных моделей. Благодаря использованию одной высокоточной базовой модели в сочетании с несколькими 1-битными дельтами, BitDelta значительно сокращает требования к памяти GPU более чем в 10 раз, что также может привести к уменьшению задержек генерации в многопользовательских сценариях. Мы проверяем BitDelta в экспериментах с семействами моделей Llama-2 и Mistral, включая модели с до 70 миллиардов параметров, демонстрируя минимальное снижение производительности во всех протестированных условиях.

English

Large Language Models (LLMs) are typically trained in two phases: pre-training on large internet-scale datasets, and fine-tuning for downstream tasks. Given the higher computational demand of pre-training, it's intuitive to assume that fine-tuning adds less new information to the model, and is thus more compressible. We explore this assumption by decomposing the weights of fine-tuned models into their pre-trained components and an additional delta. We introduce a simple method, BitDelta, which successfully quantizes this delta down to 1 bit without compromising performance. This interesting finding not only highlights the potential redundancy of information added during fine-tuning, but also has significant implications for the multi-tenant serving and multi-tenant storage of fine-tuned models. By enabling the use of a single high-precision base model accompanied by multiple 1-bit deltas, BitDelta dramatically reduces GPU memory requirements by more than 10x, which can also be translated to enhanced generation latency in multi-tenant settings. We validate BitDelta through experiments across Llama-2 and Mistral model families, and on models up to 70B parameters, showcasing minimal performance degradation over all tested settings.

BitDelta: Ваша тонкая настройка может стоить всего одного бита

BitDelta: Your Fine-Tune May Only Be Worth One Bit

Аннотация

Support