ChatPaper.aiChatPaper

SignRoundV2: Colmare il Divario Prestazionale nella Quantizzazione Post-Addestramento a Bit Estremamente Bassi per LLM

SignRoundV2: Closing the Performance Gap in Extremely Low-Bit Post-Training Quantization for LLMs

December 4, 2025
Autori: Wenhua Cheng, Weiwei Zhang, Heng Guo, Haihao Shen
cs.AI

Abstract

La quantizzazione a bit estremamente bassi è fondamentale per distribuire efficientemente i Large Language Model (LLM), ma comporta spesso un grave degrado delle prestazioni a 2 bit e persino a 4 bit (ad esempio, MXFP4). Presentiamo SignRoundV2, un framework di quantizzazione post-addestramento altamente efficace anche senza l'uso di precisione mista. SignRoundV2 introduce (1) una metrica di sensibilità rapida che combina le informazioni del gradiente con le deviazioni indotte dalla quantizzazione per guidare l'allocazione dei bit a livello di layer, e (2) una ricerca leggera di pre-tuning per le scale di quantizzazione per migliorare la quantizzazione a bit estremamente bassi. Questi componenti consentono a SignRoundV2 di colmare il divario con i modelli a precisione completa. Esperimenti approfonditi indicano che il nostro metodo mantiene un'accuratezza competitiva per gli LLM, raggiungendo prestazioni di livello produttivo con una varianza di circa l'1% a 4-5 bit e risultati solidi anche a 2 bit. L'implementazione è disponibile all'indirizzo https://github.com/intel/auto-round.
English
Extreme low-bit quantization is critical for efficiently deploying Large Language Models (LLMs), yet it often leads to severe performance degradation at 2-bits and even 4-bits (e.g., MXFP4). We present SignRoundV2, a post-training quantization framework that is highly effective even without mixed-precision. SignRoundV2 introduces (1) a fast sensitivity metric that combines gradient information with quantization-induced deviations to guide layer-wise bit allocation, and (2) a lightweight pre-tuning search for quantization scales to improve extremely low-bit quantization. These components allow SignRoundV2 to close the gap with full-precision models. Extensive experiments indicate that our method sustains competitive accuracy for LLMs, achieving production-grade performance with about 1 percent variance at 4-5 bits and strong results even at 2 bits. The implementation is available at https://github.com/intel/auto-round.
PDF132December 21, 2025