ChatPaper.aiChatPaper

SignRoundV2: Cerrando la Brecha de Rendimiento en la Cuantización Post-Entrenamiento de Bits Extremadamente Bajos para LLMs

SignRoundV2: Closing the Performance Gap in Extremely Low-Bit Post-Training Quantization for LLMs

December 4, 2025
Autores: Wenhua Cheng, Weiwei Zhang, Heng Guo, Haihao Shen
cs.AI

Resumen

La cuantización de ultra bajo bit es crucial para desplegar eficientemente Modelos de Lenguaje Grandes (LLMs), aunque a menudo conlleva una degradación severa del rendimiento a 2 bits e incluso a 4 bits (por ejemplo, MXFP4). Presentamos SignRoundV2, un marco de cuantización posterior al entrenamiento que es altamente efectivo incluso sin precisión mixta. SignRoundV2 introduce (1) una métrica de sensibilidad rápida que combina información de gradientes con desviaciones inducidas por la cuantización para guiar la asignación de bits por capa, y (2) una búsqueda liviana de sintonización previa para escalas de cuantización que mejora la cuantización en bits extremadamente bajos. Estos componentes permiten a SignRoundV2 reducir la brecha con los modelos de precisión completa. Experimentos exhaustivos indican que nuestro método mantiene una precisión competitiva para LLMs, logrando un rendimiento de grado productivo con aproximadamente un 1% de varianza a 4-5 bits y resultados sólidos incluso a 2 bits. La implementación está disponible en https://github.com/intel/auto-round.
English
Extreme low-bit quantization is critical for efficiently deploying Large Language Models (LLMs), yet it often leads to severe performance degradation at 2-bits and even 4-bits (e.g., MXFP4). We present SignRoundV2, a post-training quantization framework that is highly effective even without mixed-precision. SignRoundV2 introduces (1) a fast sensitivity metric that combines gradient information with quantization-induced deviations to guide layer-wise bit allocation, and (2) a lightweight pre-tuning search for quantization scales to improve extremely low-bit quantization. These components allow SignRoundV2 to close the gap with full-precision models. Extensive experiments indicate that our method sustains competitive accuracy for LLMs, achieving production-grade performance with about 1 percent variance at 4-5 bits and strong results even at 2 bits. The implementation is available at https://github.com/intel/auto-round.
PDF71December 6, 2025