BPDQ: Quantizzazione per Decomposizione in Piani di Bit su Griglia Variabile per Grandi Modelli Linguistici

Abstract

L'inferenza dei grandi modelli linguistici (LLM) è spesso limitata dall'ingombro di memoria e dalla larghezza di banda della memoria negli ambienti con risorse limitate, rendendo la quantizzazione una tecnica fondamentale per un servizio efficiente. Sebbene la quantizzazione post-addestramento (PTQ) mantenga un'alta fedeltà a 4 bit, essa si deteriora a 2-3 bit. Fondamentalmente, i metodi esistenti impongono una griglia di quantizzazione invariante alla forma (ad esempio, gli intervalli uniformi fissi di UINT2) per ogni gruppo, limitando severamente l'insieme ammissibile per la minimizzazione dell'errore. Per affrontare questo problema, proponiamo la Quantizzazione per Decomposizione in Piani di Bit (BPDQ), che costruisce una griglia di quantizzazione variabile mediante piani di bit e coefficienti scalari, e li raffina iterativamente utilizzando informazioni approssimate del secondo ordine mentre compensa progressivamente gli errori di quantizzazione per minimizzare la discrepanza in uscita. Nel regime a 2 bit, BPDQ consente di servire Qwen2.5-72B su una singola RTX 3090 con un'accuratezza GSM8K dell'83,85% (contro il 90,83% a 16 bit). Inoltre, forniamo un'analisi teorica che mostra come la griglia variabile espanda l'insieme ammissibile e come il processo di quantizzazione sia costantemente allineato con l'obiettivo di ottimizzazione nella geometria indotta dall'Hessiano. Codice: github.com/KingdalfGoodman/BPDQ.

English

Large language model (LLM) inference is often bounded by memory footprint and memory bandwidth in resource-constrained deployments, making quantization a fundamental technique for efficient serving. While post-training quantization (PTQ) maintains high fidelity at 4-bit, it deteriorates at 2-3 bits. Fundamentally, existing methods enforce a shape-invariant quantization grid (e.g., the fixed uniform intervals of UINT2) for each group, severely restricting the feasible set for error minimization. To address this, we propose Bit-Plane Decomposition Quantization (BPDQ), which constructs a variable quantization grid via bit-planes and scalar coefficients, and iteratively refines them using approximate second-order information while progressively compensating quantization errors to minimize output discrepancy. In the 2-bit regime, BPDQ enables serving Qwen2.5-72B on a single RTX 3090 with 83.85% GSM8K accuracy (vs. 90.83% at 16-bit). Moreover, we provide theoretical analysis showing that the variable grid expands the feasible set, and that the quantization process consistently aligns with the optimization objective in Hessian-induced geometry. Code: github.com/KingdalfGoodman/BPDQ.

BPDQ: Quantizzazione per Decomposizione in Piani di Bit su Griglia Variabile per Grandi Modelli Linguistici

BPDQ: Bit-Plane Decomposition Quantization on a Variable Grid for Large Language Models

Abstract

Support