SignRoundV2 : Combler l'écart de performance dans la quantification post-entraînement extrêmement basse précision pour les LLM
SignRoundV2: Closing the Performance Gap in Extremely Low-Bit Post-Training Quantization for LLMs
December 4, 2025
papers.authors: Wenhua Cheng, Weiwei Zhang, Heng Guo, Haihao Shen
cs.AI
papers.abstract
La quantification à très faible précision est essentielle pour déployer efficacement les modèles de langage de grande taille (LLM), mais elle entraîne souvent une dégradation sévère des performances à 2 bits et même à 4 bits (par exemple, MXFP4). Nous présentons SignRoundV2, un cadre de quantification post-entraînement qui reste très efficace même sans précision mixte. SignRoundV2 introduit (1) une métrique de sensibilité rapide combinant l'information du gradient avec les déviations induites par la quantification pour guider l'allocation de bits par couche, et (2) une recherche légère de pré-ajustement des échelles de quantification pour améliorer la quantification à très faible précision. Ces composantes permettent à SignRoundV2 de réduire l'écart avec les modèles en pleine précision. Des expériences approfondies montrent que notre méthode maintient une précision compétitive pour les LLM, atteignant des performances de qualité production avec environ 1% de variance à 4-5 bits et des résultats solides même à 2 bits. L'implémentation est disponible à l'adresse https://github.com/intel/auto-round.
English
Extreme low-bit quantization is critical for efficiently deploying Large Language Models (LLMs), yet it often leads to severe performance degradation at 2-bits and even 4-bits (e.g., MXFP4). We present SignRoundV2, a post-training quantization framework that is highly effective even without mixed-precision. SignRoundV2 introduces (1) a fast sensitivity metric that combines gradient information with quantization-induced deviations to guide layer-wise bit allocation, and (2) a lightweight pre-tuning search for quantization scales to improve extremely low-bit quantization. These components allow SignRoundV2 to close the gap with full-precision models. Extensive experiments indicate that our method sustains competitive accuracy for LLMs, achieving production-grade performance with about 1 percent variance at 4-5 bits and strong results even at 2 bits. The implementation is available at https://github.com/intel/auto-round.