SQ-format: Um Formato de Dados Unificado, Esparsificado e Quantizado para LLMs Compatível com Hardware
SQ-format: A Unified Sparse-Quantized Hardware-friendly Data Format for LLMs
December 5, 2025
Autores: Ruixuan Huang, Hao Zeng, Hantao Huang, Jinyuan Shi, Minghui Yu, Ian En-Hsu Yen, Shuai Wang
cs.AI
Resumo
A quantização pós-treinamento (PTQ) desempenha um papel crucial na democratização de grandes modelos de linguagem (LLMs). No entanto, as técnicas existentes de quantização e esparsificação de baixo bit são difíceis de equilibrar em termos de precisão e eficiência devido ao suporte limitado de hardware. Por exemplo, a configuração W4A8 só pode alcançar o mesmo pico de TOPS que a W8A8, enquanto o formato de dados esparsos suportado por GPU (esparsidade semi-estruturada 2:4) raramente é adotado devido à perda de precisão. Para preencher esta lacuna, neste artigo propomos o Formato de Quantização Esparsa (SQ-format), que é um formato de dados unificado para quantização e esparsificação potencialmente fácil de ser suportado por novo hardware e GPUs existentes. O SQ-format aproveita o facto de que matrizes esparsas podem ser aceleradas em alta precisão, e a multiplicação de matrizes de baixa precisão também pode ser acelerada em conformidade. Como tal, o SQ-format é proposto para alcançar uma melhoria de Pareto entre desempenho e throughput. Este formato é particularmente adequado para ativações com estatuto de desigualdade de valores atípicos (outliers) e torna possível a sua compressão estática. Demonstramos o desempenho state-of-the-art em PTQ com o SQ-format, propomos o hardware necessário para o suportar e oferecemos ainda uma exploração de design e insights para a próxima geração de aceleradores de IA.
English
Post-training quantization (PTQ) plays a crucial role in the democratization of large language models (LLMs). However, existing low-bit quantization and sparsification techniques are difficult to balance accuracy and efficiency due to the limited hardware support. For example, W4A8 can only achieve the same peak TOPS as W8A8 whereas the GPU-supported sparse data format (2:4 semi-structure sparse) is seldomly adopted due to the loss of accuracy. To bridge this gap, in this paper, we propose the Sparse-Quantized Format (SQ-format), which is a unified data format for quantization and sparsification potentially easily supported by new hardware and existing GPUs. SQ-format makes use of the fact that sparse matrix can be accelerated in high-precision, and low-precision matrix multiplication can also be accelerated accordingly. As such, SQ-format is proposed to achieve Pareto improvement between performance and throughput. This format is particularly suitable for activations with outlier inequality status and makes their static compression possible. We show the state-of-the-art PTQ performance with SQ-format, propose the hardware required to support it, and further offer the design exploration and insights for the next-generation AI accelerators.