ChatPaper.aiChatPaper

BPDQ: 大規模言語モデルにおける可変グリッドを用いたビットプレーン分解量子化

BPDQ: Bit-Plane Decomposition Quantization on a Variable Grid for Large Language Models

February 4, 2026
著者: Junyu Chen, Jungang Li, Jing Xiong, Wenjie Wang, Qingyao Yang, He Xiao, Zhen Li, Taiqiang Wu, Mengzhao Chen, Zhen Peng, Chaofan Tao, Long Shi, Hongxia Yang, Ngai Wong
cs.AI

要旨

大規模言語モデル(LLM)の推論は、リソースが制約された環境ではメモリフットプリントとメモリ帯域幅によって律速されることが多く、量子化は効率的なサービス提供のための基本技術となっている。学習後量子化(PTQ)は4ビットでは高い精度を維持するが、2-3ビットでは精度が劣化する。根本的に、既存手法は各グループに対して形状不変の量子化グリッド(例えばUINT2の固定均一間隔)を強制するため、誤差最小化の実行可能集合が厳しく制限される。この問題に対処するため、本論文ではBit-Plane Decomposition Quantization(BPDQ)を提案する。BPDQはビットプレーンとスカラー係数を用いて可変量子化グリッドを構築し、近似二次情報を用いてこれらを反復的に改良しながら量子化誤差を段階的に補償し、出力差異を最小化する。2ビット領域において、BPDQは単一のRTX 3090でQwen2.5-72Bを動作させ、GSM8K精度83.85%(16ビット時の90.83%対比)を達成する。さらに理論分析により、可変グリッドが実行可能集合を拡大すること、および量子化プロセスがヘッセ行列が誘導する幾何学において最適化目標と一貫して整合することを示す。コード:github.com/KingdalfGoodman/BPDQ。
English
Large language model (LLM) inference is often bounded by memory footprint and memory bandwidth in resource-constrained deployments, making quantization a fundamental technique for efficient serving. While post-training quantization (PTQ) maintains high fidelity at 4-bit, it deteriorates at 2-3 bits. Fundamentally, existing methods enforce a shape-invariant quantization grid (e.g., the fixed uniform intervals of UINT2) for each group, severely restricting the feasible set for error minimization. To address this, we propose Bit-Plane Decomposition Quantization (BPDQ), which constructs a variable quantization grid via bit-planes and scalar coefficients, and iteratively refines them using approximate second-order information while progressively compensating quantization errors to minimize output discrepancy. In the 2-bit regime, BPDQ enables serving Qwen2.5-72B on a single RTX 3090 with 83.85% GSM8K accuracy (vs. 90.83% at 16-bit). Moreover, we provide theoretical analysis showing that the variable grid expands the feasible set, and that the quantization process consistently aligns with the optimization objective in Hessian-induced geometry. Code: github.com/KingdalfGoodman/BPDQ.
PDF62February 17, 2026