QMoE: Практическое сжатие триллион-параметрических моделей до уровня менее 1 бита

Аннотация

Архитектуры Mixture-of-Experts (MoE) предлагают общее решение проблемы высоких затрат на вывод в больших языковых моделях (LLM) за счёт разреженной маршрутизации, обеспечивая более быстрые и точные модели, но ценой огромного количества параметров. Например, модель SwitchTransformer-c2048 содержит 1,6 триллиона параметров, что требует 3,2 ТБ памяти акселератора для эффективной работы, что делает практическое развёртывание сложным и дорогостоящим. В данной статье мы представляем решение этой проблемы с памятью в виде новой структуры сжатия и выполнения под названием QMoE. В частности, QMoE включает масштабируемый алгоритм, который точно сжимает MoE с триллионами параметров до менее чем 1 бита на параметр, используя специальный формат, совместно разработанный с оптимизированными ядрами декодирования для GPU, что обеспечивает эффективный сквозной вывод с минимальными накладными расходами по сравнению с несжатым выполнением. Конкретно, QMoE может сжать модель SwitchTransformer-c2048 с 1,6 триллиона параметров до менее чем 160 ГБ (20-кратное сжатие, 0,8 бита на параметр) с минимальной потерей точности, менее чем за день на одном GPU. Это впервые позволяет выполнять модель с триллионом параметров на доступном оборудовании, таком как один сервер с 4x NVIDIA A6000 или 8x NVIDIA 3090 GPU, с накладными расходами на выполнение менее 5% по сравнению с идеальным несжатым выводом. Исходный код и сжатые модели доступны на github.com/IST-DASLab/qmoe.

English

Mixture-of-Experts (MoE) architectures offer a general solution to the high inference costs of large language models (LLMs) via sparse routing, bringing faster and more accurate models, at the cost of massive parameter counts. For example, the SwitchTransformer-c2048 model has 1.6 trillion parameters, requiring 3.2TB of accelerator memory to run efficiently, which makes practical deployment challenging and expensive. In this paper, we present a solution to this memory problem, in form of a new compression and execution framework called QMoE. Specifically, QMoE consists of a scalable algorithm which accurately compresses trillion-parameter MoEs to less than 1 bit per parameter, in a custom format co-designed with bespoke GPU decoding kernels to facilitate efficient end-to-end compressed inference, with minor runtime overheads relative to uncompressed execution. Concretely, QMoE can compress the 1.6 trillion parameter SwitchTransformer-c2048 model to less than 160GB (20x compression, 0.8 bits per parameter) at only minor accuracy loss, in less than a day on a single GPU. This enables, for the first time, the execution of a trillion-parameter model on affordable commodity hardware, like a single server with 4x NVIDIA A6000 or 8x NVIDIA 3090 GPUs, at less than 5% runtime overhead relative to ideal uncompressed inference. The source code and compressed models are available at github.com/IST-DASLab/qmoe.

QMoE: Практическое сжатие триллион-параметрических моделей до уровня менее 1 бита

QMoE: Practical Sub-1-Bit Compression of Trillion-Parameter Models

Аннотация

Support