ChatPaper.aiChatPaper

SignRoundV2: Преодоление разрыва в производительности при экстремально низкоразрядной посттренировочной квантизации больших языковых моделей

SignRoundV2: Closing the Performance Gap in Extremely Low-Bit Post-Training Quantization for LLMs

December 4, 2025
Авторы: Wenhua Cheng, Weiwei Zhang, Heng Guo, Haihao Shen
cs.AI

Аннотация

Крайне низкоразрядное квантование играет ключевую роль для эффективного развертывания больших языковых моделей (LLM), однако оно часто приводит к значительной деградации производительности при 2 битах и даже при 4 битах (например, MXFP4). Мы представляем SignRoundV2 — фреймворк для послетренировочного квантования, который остается высокоэффективным даже без использования смешанной точности. SignRoundV2 включает (1) быструю метрику чувствительности, объединяющую информацию о градиентах с отклонениями, вызванными квантованием, для управления послойным распределением бит, и (2) легковесный поиск параметров квантования с предварительной настройкой для улучшения работы при экстремально низкой разрядности. Эти компоненты позволяют SignRoundV2 сократить разрыв с полноточными моделями. Многочисленные эксперименты показывают, что наш метод сохраняет конкурентоспособную точность для LLM, достигая промышленного уровня производительности с отклонением около 1% при 4-5 битах и демонстрируя высокие результаты даже при 2 битах. Реализация доступна по адресу https://github.com/intel/auto-round.
English
Extreme low-bit quantization is critical for efficiently deploying Large Language Models (LLMs), yet it often leads to severe performance degradation at 2-bits and even 4-bits (e.g., MXFP4). We present SignRoundV2, a post-training quantization framework that is highly effective even without mixed-precision. SignRoundV2 introduces (1) a fast sensitivity metric that combines gradient information with quantization-induced deviations to guide layer-wise bit allocation, and (2) a lightweight pre-tuning search for quantization scales to improve extremely low-bit quantization. These components allow SignRoundV2 to close the gap with full-precision models. Extensive experiments indicate that our method sustains competitive accuracy for LLMs, achieving production-grade performance with about 1 percent variance at 4-5 bits and strong results even at 2 bits. The implementation is available at https://github.com/intel/auto-round.
PDF71December 6, 2025