SignRoundV2: LLM을 위한 극저비트 학습 후 양자화의 성능 격차 해결
SignRoundV2: Closing the Performance Gap in Extremely Low-Bit Post-Training Quantization for LLMs
December 4, 2025
저자: Wenhua Cheng, Weiwei Zhang, Heng Guo, Haihao Shen
cs.AI
초록
극저비트 양자화는 대규모 언어 모델(LLM)을 효율적으로 배포하는 데 핵심적이지만, 2비트 및 4비트(예: MXFP4) 수준에서는 종종 심각한 성능 저하를 초래합니다. 본 논문은 혼합 정밀도 없이도 높은 효과를 보이는 사후 학습 양자화 프레임워크인 SignRoundV2를 제안합니다. SignRoundV2는 (1) 그래디언트 정보와 양자화로 인한 편차를 결합한 빠른 민감도 메트릭을 도입하여 계층별 비트 할당을 안내하고, (2) 극저비트 양자화 성능 향상을 위한 경량화된 사전 조정 기반 양자화 스케일 탐색 기법을 제안합니다. 이러한 구성 요소를 통해 SignRoundV2는 완전 정밀도 모델과의 성능 격차를 줄입니다. 광범위한 실험 결과, 본 방법론은 LLM의 경쟁력 있는 정확도를 유지하며 4-5비트에서 약 1%의 편차로 프로덕션 등급 성능을 달성하고, 2비트에서도 강력한 결과를 보여줍니다. 구현 코드는 https://github.com/intel/auto-round에서 확인할 수 있습니다.
English
Extreme low-bit quantization is critical for efficiently deploying Large Language Models (LLMs), yet it often leads to severe performance degradation at 2-bits and even 4-bits (e.g., MXFP4). We present SignRoundV2, a post-training quantization framework that is highly effective even without mixed-precision. SignRoundV2 introduces (1) a fast sensitivity metric that combines gradient information with quantization-induced deviations to guide layer-wise bit allocation, and (2) a lightweight pre-tuning search for quantization scales to improve extremely low-bit quantization. These components allow SignRoundV2 to close the gap with full-precision models. Extensive experiments indicate that our method sustains competitive accuracy for LLMs, achieving production-grade performance with about 1 percent variance at 4-5 bits and strong results even at 2 bits. The implementation is available at https://github.com/intel/auto-round.