BPDQ: Quantização por Decomposição de Planos de Bits em uma Grade Variável para Grandes Modelos de Linguagem

Resumo

A inferência de modelos de linguagem de grande escala (LLM) é frequentemente limitada pela pegada de memória e pela largura de banda de memória em implantações com recursos restritos, tornando a quantização uma técnica fundamental para um serviço eficiente. Embora a quantização pós-treinamento (PTQ) mantenha alta fidelidade em 4 bits, ela se deteriora em 2-3 bits. Fundamentalmente, os métodos existentes impõem uma grade de quantização invariante em forma (por exemplo, os intervalos uniformes fixos de UINT2) para cada grupo, restringindo severamente o conjunto viável para minimização de erro. Para resolver isso, propomos a Quantização por Decomposição em Planos de Bits (BPDQ), que constrói uma grade de quantização variável por meio de planos de bits e coeficientes escalares, e os refina iterativamente usando informações aproximadas de segunda ordem enquanto compensa progressivamente os erros de quantização para minimizar a discrepância na saída. No regime de 2 bits, o BPDQ permite servir o Qwen2.5-72B em uma única RTX 3090 com 83,85% de precisão no GSM8K (vs. 90,83% em 16 bits). Além disso, fornecemos uma análise teórica mostrando que a grade variável expande o conjunto viável e que o processo de quantização se alinha consistentemente com o objetivo de otimização na geometria induzida pela Hessiana. Código: github.com/KingdalfGoodman/BPDQ.

English

Large language model (LLM) inference is often bounded by memory footprint and memory bandwidth in resource-constrained deployments, making quantization a fundamental technique for efficient serving. While post-training quantization (PTQ) maintains high fidelity at 4-bit, it deteriorates at 2-3 bits. Fundamentally, existing methods enforce a shape-invariant quantization grid (e.g., the fixed uniform intervals of UINT2) for each group, severely restricting the feasible set for error minimization. To address this, we propose Bit-Plane Decomposition Quantization (BPDQ), which constructs a variable quantization grid via bit-planes and scalar coefficients, and iteratively refines them using approximate second-order information while progressively compensating quantization errors to minimize output discrepancy. In the 2-bit regime, BPDQ enables serving Qwen2.5-72B on a single RTX 3090 with 83.85% GSM8K accuracy (vs. 90.83% at 16-bit). Moreover, we provide theoretical analysis showing that the variable grid expands the feasible set, and that the quantization process consistently aligns with the optimization objective in Hessian-induced geometry. Code: github.com/KingdalfGoodman/BPDQ.

BPDQ: Quantização por Decomposição de Planos de Bits em uma Grade Variável para Grandes Modelos de Linguagem

BPDQ: Bit-Plane Decomposition Quantization on a Variable Grid for Large Language Models

Resumo

Support