SINQ: 캘리브레이션 없이 저정밀도 LLM 가중치를 위한 Sinkhorn 정규화 양자화
SINQ: Sinkhorn-Normalized Quantization for Calibration-Free Low-Precision LLM Weights
September 26, 2025
저자: Lorenz K. Müller, Philippe Bich, Jiawei Zhuang, Ahmet Çelik, Luca Benfenati, Lukas Cavigelli
cs.AI
초록
훈련 후 양자화는 대규모 언어 모델을 저정밀도로 배포하기 위해 가장 널리 사용되는 전략으로 부상했습니다. 그러나 현재의 방법들은 4비트 이하의 비트 폭에서 perplexity 저하를 보이며, 이는 부분적으로 이상치를 표현할 때 이러한 이상치와 동일한 스케일을 공유하는 매개변수에서 정밀도 문제가 발생하기 때문입니다. 이 문제는 특히 교정이 필요 없는 균일 양자화 방법에서 두드러집니다. 우리는 SINQ를 도입하여 기존의 훈련 후 양자화기에 추가적인 두 번째 축 스케일 인자와 빠른 Sinkhorn-Knopp 스타일 알고리즘을 추가하여 행별 및 열별 분산을 정규화하는 스케일을 찾아, 양자화를 위한 새로운 매트릭스 프록시 목표인 매트릭스 불균형을 최소화합니다. 우리의 방법은 계층 간 상호작용이 없으며 새로운 아키텍처에 간단히 적용하여 모든 선형 계층을 양자화할 수 있습니다. 우리는 이 방법을 Qwen3 모델 패밀리와 DeepSeek-V2.5에서 평가했습니다. SINQ는 WikiText2와 C4 perplexity를 교정되지 않은 균일 양자화 기준선에 비해 크게 개선하며, 교정 및 비균일 양자화 수준과 결합하여 더욱 향상될 수 있습니다. 이 작업의 결과를 재현하고 SINQ를 사용하여 모델을 쉽게 양자화할 수 있는 코드는 https://github.com/huawei-csl/SINQ에서 확인할 수 있습니다.
English
Post-training quantization has emerged as the most widely used strategy for
deploying large language models at low precision. Still, current methods show
perplexity degradation at bit-widths less than or equal to 4, partly because
representing outliers causes precision issues in parameters that share the same
scales as these outliers. This problem is especially pronounced for
calibration-free, uniform quantization methods. We introduce SINQ to augment
existing post-training quantizers with an additional second-axis scale factor
and a fast Sinkhorn-Knopp-style algorithm that finds scales to normalize
per-row and per-column variances, thereby minimizing a novel per-matrix proxy
target for quantization: the matrix imbalance. Our method has no interactions
between layers and can be trivially applied to new architectures to quantize
any linear layers. We evaluate our method on the Qwen3 model family and
DeepSeek-V2.5. SINQ improves WikiText2 and C4 perplexity significantly against
uncalibrated uniform quantization baselines and can be further enhanced by
combining it with calibration and non-uniform quantization levels. Code to
reproduce the results of this work and to easily quantize models using SINQ is
available at https://github.com/huawei-csl/SINQ.