QMoE: Praktische compressie van triljoen-parameter modellen tot minder dan 1 bit
QMoE: Practical Sub-1-Bit Compression of Trillion-Parameter Models
October 25, 2023
Auteurs: Elias Frantar, Dan Alistarh
cs.AI
Samenvatting
Mixture-of-Experts (MoE)-architecturen bieden een algemene oplossing voor de hoge inferentiekosten van grote taalmodellen (LLMs) via sparse routing, waardoor snellere en nauwkeurigere modellen mogelijk worden, ten koste van enorme aantallen parameters. Het SwitchTransformer-c2048-model heeft bijvoorbeeld 1,6 biljoen parameters en vereist 3,2TB acceleratorgeheugen om efficiënt te draaien, wat praktische implementatie uitdagend en kostbaar maakt. In dit artikel presenteren we een oplossing voor dit geheugenprobleem in de vorm van een nieuw compressie- en uitvoeringsframework genaamd QMoE. Specifiek bestaat QMoE uit een schaalbaar algoritme dat MoE's met biljoenen parameters nauwkeurig comprimeert tot minder dan 1 bit per parameter, in een aangepast formaat dat samen met op maat gemaakte GPU-decodeerkernels is ontworpen om efficiënte end-to-end gecomprimeerde inferentie mogelijk te maken, met minimale runtime-overhead ten opzichte van ongecomprimeerde uitvoering. Concreet kan QMoE het SwitchTransformer-c2048-model met 1,6 biljoen parameters comprimeren tot minder dan 160GB (20x compressie, 0,8 bits per parameter) met slechts een gering verlies aan nauwkeurigheid, in minder dan een dag op een enkele GPU. Dit maakt voor het eerst de uitvoering van een model met biljoenen parameters mogelijk op betaalbare standaardhardware, zoals een enkele server met 4x NVIDIA A6000 of 8x NVIDIA 3090 GPU's, met minder dan 5% runtime-overhead ten opzichte van ideale ongecomprimeerde inferentie. De broncode en gecomprimeerde modellen zijn beschikbaar op github.com/IST-DASLab/qmoe.
English
Mixture-of-Experts (MoE) architectures offer a general solution to the high
inference costs of large language models (LLMs) via sparse routing, bringing
faster and more accurate models, at the cost of massive parameter counts. For
example, the SwitchTransformer-c2048 model has 1.6 trillion parameters,
requiring 3.2TB of accelerator memory to run efficiently, which makes practical
deployment challenging and expensive. In this paper, we present a solution to
this memory problem, in form of a new compression and execution framework
called QMoE. Specifically, QMoE consists of a scalable algorithm which
accurately compresses trillion-parameter MoEs to less than 1 bit per parameter,
in a custom format co-designed with bespoke GPU decoding kernels to facilitate
efficient end-to-end compressed inference, with minor runtime overheads
relative to uncompressed execution. Concretely, QMoE can compress the 1.6
trillion parameter SwitchTransformer-c2048 model to less than 160GB (20x
compression, 0.8 bits per parameter) at only minor accuracy loss, in less than
a day on a single GPU. This enables, for the first time, the execution of a
trillion-parameter model on affordable commodity hardware, like a single server
with 4x NVIDIA A6000 or 8x NVIDIA 3090 GPUs, at less than 5% runtime overhead
relative to ideal uncompressed inference. The source code and compressed models
are available at github.com/IST-DASLab/qmoe.