Um Estudo Empírico sobre a Quantização do Qwen3
An Empirical Study of Qwen3 Quantization
May 4, 2025
Autores: Xingyu Zheng, Yuye Li, Haoran Chu, Yue Feng, Xudong Ma, Jie Luo, Jinyang Guo, Haotong Qin, Michele Magno, Xianglong Liu
cs.AI
Resumo
A série Qwen emergiu como uma família líder de Modelos de Linguagem de Grande Escala (LLMs) de código aberto, demonstrando capacidades notáveis em tarefas de compreensão de linguagem natural. Com o recente lançamento do Qwen3, que exibe desempenho superior em diversos benchmarks, há um interesse crescente em implantar esses modelos de forma eficiente em ambientes com recursos limitados. A quantização de baixo bit apresenta uma solução promissora, mas seu impacto no desempenho do Qwen3 ainda é pouco explorado. Este estudo realiza uma avaliação sistemática da robustez do Qwen3 sob várias configurações de quantização, com o objetivo de revelar tanto oportunidades quanto desafios na compressão desse modelo de última geração. Avaliamos rigorosamente 5 técnicas clássicas de quantização pós-treinamento aplicadas ao Qwen3, abrangendo bit-widths de 1 a 8 bits, e avaliamos sua eficácia em múltiplos conjuntos de dados. Nossos resultados revelam que, embora o Qwen3 mantenha um desempenho competitivo em bit-widths moderados, ele sofre uma degradação significativa em tarefas linguísticas sob precisão ultrabaixa, destacando os desafios persistentes na compressão de LLMs. Esses resultados enfatizam a necessidade de mais pesquisas para mitigar a perda de desempenho em cenários de quantização extrema. Antecipamos que esta análise empírica fornecerá insights acionáveis para avançar os métodos de quantização adaptados ao Qwen3 e futuros LLMs, aprimorando sua praticidade sem comprometer a precisão. Nosso projeto está disponível em https://github.com/Efficient-ML/Qwen3-Quantization e https://huggingface.co/collections/Efficient-ML/qwen3-quantization-68164450decb1c868788cb2b.
English
The Qwen series has emerged as a leading family of open-source Large Language
Models (LLMs), demonstrating remarkable capabilities in natural language
understanding tasks. With the recent release of Qwen3, which exhibits superior
performance across diverse benchmarks, there is growing interest in deploying
these models efficiently in resource-constrained environments. Low-bit
quantization presents a promising solution, yet its impact on Qwen3's
performance remains underexplored. This study conducts a systematic evaluation
of Qwen3's robustness under various quantization settings, aiming to uncover
both opportunities and challenges in compressing this state-of-the-art model.
We rigorously assess 5 existing classic post-training quantization techniques
applied to Qwen3, spanning bit-widths from 1 to 8 bits, and evaluate their
effectiveness across multiple datasets. Our findings reveal that while Qwen3
maintains competitive performance at moderate bit-widths, it experiences
notable degradation in linguistic tasks under ultra-low precision, underscoring
the persistent hurdles in LLM compression. These results emphasize the need for
further research to mitigate performance loss in extreme quantization
scenarios. We anticipate that this empirical analysis will provide actionable
insights for advancing quantization methods tailored to Qwen3 and future LLMs,
ultimately enhancing their practicality without compromising accuracy. Our
project is released on https://github.com/Efficient-ML/Qwen3-Quantization and
https://huggingface.co/collections/Efficient-ML/qwen3-quantization-68164450decb1c868788cb2b.