BPDQ: Квантование методом декомпозиции битовых плоскостей на переменной сетке для больших языковых моделей
BPDQ: Bit-Plane Decomposition Quantization on a Variable Grid for Large Language Models
February 4, 2026
Авторы: Junyu Chen, Jungang Li, Jing Xiong, Wenjie Wang, Qingyao Yang, He Xiao, Zhen Li, Taiqiang Wu, Mengzhao Chen, Zhen Peng, Chaofan Tao, Long Shi, Hongxia Yang, Ngai Wong
cs.AI
Аннотация
Вывод больших языковых моделей (LLM) часто ограничен объемом памяти и пропускной способностью памяти в развертываниях с ограниченными ресурсами, что делает квантизацию фундаментальной техникой для эффективного обслуживания. Хотя послетренировочная квантизация (PTQ) сохраняет высокую точность при 4 битах, ее качество ухудшается при 2-3 битах. В основе проблемы лежит то, что существующие методы применяют формульно-инвариантную сетку квантизации (например, фиксированные равномерные интервалы UINT2) для каждой группы, что строго ограничивает допустимое множество для минимизации ошибки. Для решения этой проблемы мы предлагаем Bit-Plane Decomposition Quantization (BPDQ), которая строит переменную сетку квантизации с помощью битовых плоскостей и скалярных коэффициентов, итеративно уточняя их с использованием приближенной информации второго порядка, одновременно постепенно компенсируя ошибки квантизации для минимизации расхождения на выходе. В режиме 2 бит BPDQ позволяет обслуживать модель Qwen2.5-72B на одной видеокарте RTX 3090 с точностью 83.85% на GSM8K (против 90.83% при 16 битах). Кроме того, мы предоставляем теоретический анализ, показывающий, что переменная сетка расширяет допустимое множество, и что процесс квантизации последовательно согласуется с целью оптимизации в геометрии, индуцированной гессианом. Код: github.com/KingdalfGoodman/BPDQ.
English
Large language model (LLM) inference is often bounded by memory footprint and memory bandwidth in resource-constrained deployments, making quantization a fundamental technique for efficient serving. While post-training quantization (PTQ) maintains high fidelity at 4-bit, it deteriorates at 2-3 bits. Fundamentally, existing methods enforce a shape-invariant quantization grid (e.g., the fixed uniform intervals of UINT2) for each group, severely restricting the feasible set for error minimization. To address this, we propose Bit-Plane Decomposition Quantization (BPDQ), which constructs a variable quantization grid via bit-planes and scalar coefficients, and iteratively refines them using approximate second-order information while progressively compensating quantization errors to minimize output discrepancy. In the 2-bit regime, BPDQ enables serving Qwen2.5-72B on a single RTX 3090 with 83.85% GSM8K accuracy (vs. 90.83% at 16-bit). Moreover, we provide theoretical analysis showing that the variable grid expands the feasible set, and that the quantization process consistently aligns with the optimization objective in Hessian-induced geometry. Code: github.com/KingdalfGoodman/BPDQ.