SignRoundV2: 大規模言語モデルの極低ビット学習後量子化における性能格差の解消
SignRoundV2: Closing the Performance Gap in Extremely Low-Bit Post-Training Quantization for LLMs
December 4, 2025
著者: Wenhua Cheng, Weiwei Zhang, Heng Guo, Haihao Shen
cs.AI
要旨
極端な低ビット量子化は大規模言語モデル(LLM)を効率的に展開する上で重要であるが、2ビットや4ビット(MXFP4など)では性能が大幅に低下する傾向がある。本論文では、混合精度を必要とせず高い効果を発揮する学習後量子化フレームワークSignRoundV2を提案する。SignRoundV2は、(1)勾配情報と量子化による偏差を組み合わせた高速な感度指標により層ごとのビット割り当てを導出し、(2)極低ビット量子化を改善するための軽量な量子化スケール事前調整探索を導入する。これらの構成要素により、SignRoundV2は全精度モデルとの性能差を縮めることができる。大規模な実験により、本手法がLLMにおいて競争力のある精度を維持し、4~5ビットで約1%の誤差という製品レベルの性能を達成し、2ビットでも強力な結果を示すことが確認された。実装はhttps://github.com/intel/auto-round で公開されている。
English
Extreme low-bit quantization is critical for efficiently deploying Large Language Models (LLMs), yet it often leads to severe performance degradation at 2-bits and even 4-bits (e.g., MXFP4). We present SignRoundV2, a post-training quantization framework that is highly effective even without mixed-precision. SignRoundV2 introduces (1) a fast sensitivity metric that combines gradient information with quantization-induced deviations to guide layer-wise bit allocation, and (2) a lightweight pre-tuning search for quantization scales to improve extremely low-bit quantization. These components allow SignRoundV2 to close the gap with full-precision models. Extensive experiments indicate that our method sustains competitive accuracy for LLMs, achieving production-grade performance with about 1 percent variance at 4-5 bits and strong results even at 2 bits. The implementation is available at https://github.com/intel/auto-round.