SINQ: Quantização Normalizada por Sinkhorn para Pesos de LLM de Baixa Precisão sem Calibração
SINQ: Sinkhorn-Normalized Quantization for Calibration-Free Low-Precision LLM Weights
September 26, 2025
Autores: Lorenz K. Müller, Philippe Bich, Jiawei Zhuang, Ahmet Çelik, Luca Benfenati, Lukas Cavigelli
cs.AI
Resumo
A quantização pós-treinamento emergiu como a estratégia mais amplamente utilizada para implantar modelos de linguagem grandes em baixa precisão. No entanto, os métodos atuais apresentam degradação de perplexidade em larguras de bits menores ou iguais a 4, em parte porque a representação de valores atípicos causa problemas de precisão em parâmetros que compartilham as mesmas escalas desses valores atípicos. Esse problema é especialmente pronunciado para métodos de quantização uniforme e sem calibração. Introduzimos o SINQ para aprimorar os quantizadores pós-treinamento existentes com um fator de escala adicional no segundo eixo e um algoritmo rápido no estilo Sinkhorn-Knopp que encontra escalas para normalizar as variâncias por linha e por coluna, minimizando assim um novo alvo proxy de quantização por matriz: o desequilíbrio da matriz. Nosso método não tem interações entre camadas e pode ser trivialmente aplicado a novas arquiteturas para quantizar quaisquer camadas lineares. Avaliamos nosso método na família de modelos Qwen3 e DeepSeek-V2.5. O SINQ melhora significativamente a perplexidade do WikiText2 e C4 em comparação com as linhas de base de quantização uniforme sem calibração e pode ser ainda mais aprimorado ao ser combinado com calibração e níveis de quantização não uniformes. O código para reproduzir os resultados deste trabalho e para quantizar facilmente modelos usando o SINQ está disponível em https://github.com/huawei-csl/SINQ.
English
Post-training quantization has emerged as the most widely used strategy for
deploying large language models at low precision. Still, current methods show
perplexity degradation at bit-widths less than or equal to 4, partly because
representing outliers causes precision issues in parameters that share the same
scales as these outliers. This problem is especially pronounced for
calibration-free, uniform quantization methods. We introduce SINQ to augment
existing post-training quantizers with an additional second-axis scale factor
and a fast Sinkhorn-Knopp-style algorithm that finds scales to normalize
per-row and per-column variances, thereby minimizing a novel per-matrix proxy
target for quantization: the matrix imbalance. Our method has no interactions
between layers and can be trivially applied to new architectures to quantize
any linear layers. We evaluate our method on the Qwen3 model family and
DeepSeek-V2.5. SINQ improves WikiText2 and C4 perplexity significantly against
uncalibrated uniform quantization baselines and can be further enhanced by
combining it with calibration and non-uniform quantization levels. Code to
reproduce the results of this work and to easily quantize models using SINQ is
available at https://github.com/huawei-csl/SINQ.