SQフォーマット:LLM向け統一スパース量子化ハードウェア対応データ形式
SQ-format: A Unified Sparse-Quantized Hardware-friendly Data Format for LLMs
December 5, 2025
著者: Ruixuan Huang, Hao Zeng, Hantao Huang, Jinyuan Shi, Minghui Yu, Ian En-Hsu Yen, Shuai Wang
cs.AI
要旨
ポストトレーニング量子化(PTQ)は大規模言語モデル(LLM)の民主化において極めて重要な役割を果たしている。しかし、既存の低ビット量子化とスパース化技術は、ハードウェアサポートの限界により精度と効率性の両立が困難である。例えば、W4A8はW8A8と同じピークTOPSしか達成できず、GPUがサポートする疎データ形式(2:4半構造疎)は精度低下のためほとんど採用されていない。この課題を解決するため、本論文では新しいハードウェアおよび既存のGPUで容易にサポート可能な、量子化とスパース化を統合したデータ形式であるSparse-Quantized Format(SQ-format)を提案する。SQ-formatは、高精度な疎行列が高速化可能であること、および低精度な行列乗算も同様に高速化可能であるという事実を利用する。これにより、SQ-formatは性能とスループットの間のパレート改善を実現する。この形式は外れ値の不均一分布を示す活性化に特に適しており、それらの静的圧縮を可能とする。我々はSQ-formatを用いた最先端のPTQ性能を示し、それをサポートするために必要なハードウェアを提案するとともに、次世代AIアクセラレータの設計探索と知見を提供する。
English
Post-training quantization (PTQ) plays a crucial role in the democratization of large language models (LLMs). However, existing low-bit quantization and sparsification techniques are difficult to balance accuracy and efficiency due to the limited hardware support. For example, W4A8 can only achieve the same peak TOPS as W8A8 whereas the GPU-supported sparse data format (2:4 semi-structure sparse) is seldomly adopted due to the loss of accuracy. To bridge this gap, in this paper, we propose the Sparse-Quantized Format (SQ-format), which is a unified data format for quantization and sparsification potentially easily supported by new hardware and existing GPUs. SQ-format makes use of the fact that sparse matrix can be accelerated in high-precision, and low-precision matrix multiplication can also be accelerated accordingly. As such, SQ-format is proposed to achieve Pareto improvement between performance and throughput. This format is particularly suitable for activations with outlier inequality status and makes their static compression possible. We show the state-of-the-art PTQ performance with SQ-format, propose the hardware required to support it, and further offer the design exploration and insights for the next-generation AI accelerators.