ChatPaper.aiChatPaper

SQ-format: LLM에 최적화된 통합 희소 양자화 하드웨어 친화적 데이터 형식

SQ-format: A Unified Sparse-Quantized Hardware-friendly Data Format for LLMs

December 5, 2025
저자: Ruixuan Huang, Hao Zeng, Hantao Huang, Jinyuan Shi, Minghui Yu, Ian En-Hsu Yen, Shuai Wang
cs.AI

초록

훈련 후 양자화(PTQ)는 대규모 언어 모델(LLM)의 대중화에 중요한 역할을 합니다. 그러나 기존의 저비트 양자화 및 희소화 기술은 제한된 하드웨어 지원으로 인해 정확도와 효율성의 균형을 맞추기 어렵습니다. 예를 들어, W4A8은 W8A8과 동일한 최고 TOPS만 달성할 수 있으며, GPU에서 지원하는 희소 데이터 형식(2:4 반구조적 희소화)은 정확도 손실로 인해 거의 채택되지 않습니다. 이러한 격차를 해소하기 위해 본 논문에서는 새로운 하드웨어와 기존 GPU에서 잠재적으로 쉽게 지원될 수 있는 양자화와 희소화를 위한 통합 데이터 형식인 SQ-형식(Sparse-Quantized Format)을 제안합니다. SQ-형식은 희소 행렬이 높은 정밀도에서 가속될 수 있고, 낮은 정밀도 행렬 곱셈도 그에 따라 가속될 수 있다는 사실을 활용합니다. 이를 통해 SQ-형식은 성능과 처리량 사이의 파레토 개선을 달성하고자 제안되었습니다. 이 형식은 이상치 불평등 상태를 보이는 활성화 함수에 특히 적합하며, 이들의 정적 압축을 가능하게 합니다. 우리는 SQ-형식을 사용한 최첨단 PTQ 성능을 보여주고, 이를 지원하는 데 필요한 하드웨어를 제안하며, 더 나아가 차세대 AI 가속기를 위한 설계 탐색과 통찰을 제공합니다.
English
Post-training quantization (PTQ) plays a crucial role in the democratization of large language models (LLMs). However, existing low-bit quantization and sparsification techniques are difficult to balance accuracy and efficiency due to the limited hardware support. For example, W4A8 can only achieve the same peak TOPS as W8A8 whereas the GPU-supported sparse data format (2:4 semi-structure sparse) is seldomly adopted due to the loss of accuracy. To bridge this gap, in this paper, we propose the Sparse-Quantized Format (SQ-format), which is a unified data format for quantization and sparsification potentially easily supported by new hardware and existing GPUs. SQ-format makes use of the fact that sparse matrix can be accelerated in high-precision, and low-precision matrix multiplication can also be accelerated accordingly. As such, SQ-format is proposed to achieve Pareto improvement between performance and throughput. This format is particularly suitable for activations with outlier inequality status and makes their static compression possible. We show the state-of-the-art PTQ performance with SQ-format, propose the hardware required to support it, and further offer the design exploration and insights for the next-generation AI accelerators.
PDF22December 9, 2025