BPDQ: Bitvlakdecompositie-kwantisering op een variabel rooster voor grote taalmodel

Samenvatting

Het inferentieproces van grote taalmmodellen (LLM's) wordt in resourcebeperkte omgevingen vaak beperkt door het geheugengebruik en de geheugenbandbreedte, waardoor kwantisatie een fundamentele techniek is voor efficiënte inzet. Hoewel kwantisatie na training (PTQ) een hoge nauwkeurigheid behoudt bij 4 bits, verslechtert de prestatie bij 2-3 bits. Fundamenteel gezien hanteren bestaande methodes een vorminvariant kwantisatierooster (bijvoorbeeld de vaste uniforme intervallen van UINT2) voor elke groep, wat de mogelijke oplossingsruimte voor foutminimalisatie ernstig beperkt. Om dit aan te pakken, stellen we Bit-Plane Decompositie Kwantisatie (BPDQ) voor, dat een variabel kwantisatierooster construeert via bit-planes en scalaire coëfficiënten, en deze iteratief verfijnt met behulp van benaderde tweede-orde-informatie, terwijl kwantisatiefouten progressief worden gecompenseerd om de uitvoerafwijking te minimaliseren. In het 2-bits regime stelt BPDQ ons in staat om Qwen2.5-72B op een enkele RTX 3090 te draaien met een nauwkeurigheid van 83,85% op GSM8K (tegenover 90,83% bij 16 bits). Bovendien bieden we een theoretische analyse die aantoont dat het variabele rooster de mogelijke oplossingsruimte vergroot, en dat het kwantisatieproces consistent overeenkomt met het optimalisatiedoel in de door de Hessiaan geïnduceerde geometrie. Code: github.com/KingdalfGoodman/BPDQ.

English

Large language model (LLM) inference is often bounded by memory footprint and memory bandwidth in resource-constrained deployments, making quantization a fundamental technique for efficient serving. While post-training quantization (PTQ) maintains high fidelity at 4-bit, it deteriorates at 2-3 bits. Fundamentally, existing methods enforce a shape-invariant quantization grid (e.g., the fixed uniform intervals of UINT2) for each group, severely restricting the feasible set for error minimization. To address this, we propose Bit-Plane Decomposition Quantization (BPDQ), which constructs a variable quantization grid via bit-planes and scalar coefficients, and iteratively refines them using approximate second-order information while progressively compensating quantization errors to minimize output discrepancy. In the 2-bit regime, BPDQ enables serving Qwen2.5-72B on a single RTX 3090 with 83.85% GSM8K accuracy (vs. 90.83% at 16-bit). Moreover, we provide theoretical analysis showing that the variable grid expands the feasible set, and that the quantization process consistently aligns with the optimization objective in Hessian-induced geometry. Code: github.com/KingdalfGoodman/BPDQ.

BPDQ: Bitvlakdecompositie-kwantisering op een variabel rooster voor grote taalmodel

BPDQ: Bit-Plane Decomposition Quantization on a Variable Grid for Large Language Models

Samenvatting

Support