ChatPaper.aiChatPaper

SignRoundV2: Het Dichten van de Prestatiekloof bij Extreem Lage-Bits Post-Training Kwantisatie voor LLM's

SignRoundV2: Closing the Performance Gap in Extremely Low-Bit Post-Training Quantization for LLMs

December 4, 2025
Auteurs: Wenhua Cheng, Weiwei Zhang, Heng Guo, Haihao Shen
cs.AI

Samenvatting

Extreme lage-bits kwantisatie is cruciaal voor de efficiënte implementatie van Large Language Models (LLM's), maar leidt vaak tot ernstige prestatievermindering bij 2-bits en zelfs 4-bits (bijv. MXFP4). Wij presenteren SignRoundV2, een post-training kwantisatiekader dat zeer effectief is, zelfs zonder mixed-precision. SignRoundV2 introduceert (1) een snelle gevoeligheidsmetriek die gradientinformatie combineert met kwantisatie-geïnduceerde afwijkingen om laaggewijze bit-toewijzing te sturen, en (2) een lichtgewicht pre-tuning zoektocht naar kwantisatieschalen om extreem lage-bits kwantisatie te verbeteren. Deze componenten stellen SignRoundV2 in staat de kloof met full-precision modellen te dichten. Uitgebreide experimenten tonen aan dat onze methode een concurrerende nauwkeurigheid voor LLM's behoudt, waarbij productieklasse prestaties worden bereikt met ongeveer 1 procent variantie bij 4-5 bits en sterke resultaten zelfs bij 2 bits. De implementatie is beschikbaar op https://github.com/intel/auto-round.
English
Extreme low-bit quantization is critical for efficiently deploying Large Language Models (LLMs), yet it often leads to severe performance degradation at 2-bits and even 4-bits (e.g., MXFP4). We present SignRoundV2, a post-training quantization framework that is highly effective even without mixed-precision. SignRoundV2 introduces (1) a fast sensitivity metric that combines gradient information with quantization-induced deviations to guide layer-wise bit allocation, and (2) a lightweight pre-tuning search for quantization scales to improve extremely low-bit quantization. These components allow SignRoundV2 to close the gap with full-precision models. Extensive experiments indicate that our method sustains competitive accuracy for LLMs, achieving production-grade performance with about 1 percent variance at 4-5 bits and strong results even at 2 bits. The implementation is available at https://github.com/intel/auto-round.
PDF132December 21, 2025