ChatPaper.aiChatPaper

SignRoundV2: Fechando a Lacuna de Desempenho na Quantização Pós-Treinamento de Bits Extremamente Baixos para LLMs

SignRoundV2: Closing the Performance Gap in Extremely Low-Bit Post-Training Quantization for LLMs

December 4, 2025
Autores: Wenhua Cheng, Weiwei Zhang, Heng Guo, Haihao Shen
cs.AI

Resumo

A quantização de bits extremamente baixos é crucial para a implantação eficiente de Modelos de Linguagem de Grande Porte (LLMs), mas frequentemente resulta em severa degradação de desempenho em 2 bits e até mesmo em 4 bits (por exemplo, MXFP4). Apresentamos o SignRoundV2, uma estrutura de quantização pós-treinamento altamente eficaz mesmo sem precisão mista. O SignRoundV2 introduz (1) uma métrica de sensibilidade rápida que combina informações de gradiente com desvios induzidos pela quantização para orientar a alocação de bits por camada, e (2) uma busca leve de pré-ajuste para escalas de quantização para melhorar a quantização em bits extremamente baixos. Esses componentes permitem que o SignRoundV2 reduza a lacuna com os modelos de precisão total. Experimentos extensivos indicam que nosso método mantém precisão competitiva para LLMs, alcançando desempenho de nível de produção com cerca de 1% de variação em 4-5 bits e resultados robustos mesmo em 2 bits. A implementação está disponível em https://github.com/intel/auto-round.
English
Extreme low-bit quantization is critical for efficiently deploying Large Language Models (LLMs), yet it often leads to severe performance degradation at 2-bits and even 4-bits (e.g., MXFP4). We present SignRoundV2, a post-training quantization framework that is highly effective even without mixed-precision. SignRoundV2 introduces (1) a fast sensitivity metric that combines gradient information with quantization-induced deviations to guide layer-wise bit allocation, and (2) a lightweight pre-tuning search for quantization scales to improve extremely low-bit quantization. These components allow SignRoundV2 to close the gap with full-precision models. Extensive experiments indicate that our method sustains competitive accuracy for LLMs, achieving production-grade performance with about 1 percent variance at 4-5 bits and strong results even at 2 bits. The implementation is available at https://github.com/intel/auto-round.
PDF142April 2, 2026