SignRoundV2: Schließen der Leistungslücke bei extrem niederbitiger Nachtrainierungsquantisierung für LLMs
SignRoundV2: Closing the Performance Gap in Extremely Low-Bit Post-Training Quantization for LLMs
December 4, 2025
papers.authors: Wenhua Cheng, Weiwei Zhang, Heng Guo, Haihao Shen
cs.AI
papers.abstract
Extreme Niedrigbit-Quantisierung ist entscheidend für den effizienten Einsatz von Large Language Models (LLMs), führt jedoch häufig zu erheblichen Leistungseinbußen bei 2 Bit und sogar 4 Bit (z.B. MXFP4). Wir stellen SignRoundV2 vor, ein Post-Training-Quantisierungsframework, das auch ohne gemischte Präzision äußerst effektiv ist. SignRoundV2 führt (1) eine schnelle Sensitivitätsmetrik ein, die Gradienteninformationen mit quantisierungsbedingten Abweichungen kombiniert, um die bitweise Zuweisung pro Schicht zu steuern, und (2) eine leichtgewichtige Vorab-Abstimmungssuche für Quantisierungsskalen, um die extrem niedrigbit-Quantisierung zu verbessern. Diese Komponenten ermöglichen es SignRoundV2, die Lücke zu Modellen in Vollpräzision zu schließen. Umfangreiche Experimente zeigen, dass unsere Methode eine wettbewerbsfähige Genauigkeit für LLMs beibehält, mit produktionsreifer Leistung bei etwa 1 Prozent Abweichung bei 4-5 Bit und soliden Ergebnissen sogar bei 2 Bit. Die Implementierung ist verfügbar unter https://github.com/intel/auto-round.
English
Extreme low-bit quantization is critical for efficiently deploying Large Language Models (LLMs), yet it often leads to severe performance degradation at 2-bits and even 4-bits (e.g., MXFP4). We present SignRoundV2, a post-training quantization framework that is highly effective even without mixed-precision. SignRoundV2 introduces (1) a fast sensitivity metric that combines gradient information with quantization-induced deviations to guide layer-wise bit allocation, and (2) a lightweight pre-tuning search for quantization scales to improve extremely low-bit quantization. These components allow SignRoundV2 to close the gap with full-precision models. Extensive experiments indicate that our method sustains competitive accuracy for LLMs, achieving production-grade performance with about 1 percent variance at 4-5 bits and strong results even at 2 bits. The implementation is available at https://github.com/intel/auto-round.