Une étude empirique de la quantification de Qwen3
An Empirical Study of Qwen3 Quantization
May 4, 2025
Auteurs: Xingyu Zheng, Yuye Li, Haoran Chu, Yue Feng, Xudong Ma, Jie Luo, Jinyang Guo, Haotong Qin, Michele Magno, Xianglong Liu
cs.AI
Résumé
La série Qwen s'est imposée comme une famille phare de modèles de langage de grande taille (LLM) open source, démontrant des capacités remarquables dans les tâches de compréhension du langage naturel. Avec la récente sortie de Qwen3, qui affiche des performances supérieures sur divers benchmarks, l'intérêt pour déployer ces modèles de manière efficace dans des environnements à ressources limitées ne cesse de croître. La quantification à faible précision apparaît comme une solution prometteuse, mais son impact sur les performances de Qwen3 reste encore peu exploré. Cette étude propose une évaluation systématique de la robustesse de Qwen3 sous différents paramètres de quantification, visant à identifier à la fois les opportunités et les défis liés à la compression de ce modèle de pointe. Nous évaluons rigoureusement 5 techniques classiques de quantification post-entraînement appliquées à Qwen3, couvrant des largeurs de bits allant de 1 à 8 bits, et mesurons leur efficacité sur plusieurs jeux de données. Nos résultats révèlent que si Qwen3 maintient des performances compétitives à des précisions modérées, il subit une dégradation notable dans les tâches linguistiques sous une précision ultra-faible, soulignant les défis persistants de la compression des LLM. Ces résultats mettent en lumière la nécessité de recherches supplémentaires pour atténuer la perte de performance dans les scénarios de quantification extrême. Nous espérons que cette analyse empirique fournira des insights exploitables pour faire progresser les méthodes de quantification adaptées à Qwen3 et aux futurs LLM, améliorant ainsi leur praticabilité sans compromettre leur précision. Notre projet est disponible sur https://github.com/Efficient-ML/Qwen3-Quantization et https://huggingface.co/collections/Efficient-ML/qwen3-quantization-68164450decb1c868788cb2b.
English
The Qwen series has emerged as a leading family of open-source Large Language
Models (LLMs), demonstrating remarkable capabilities in natural language
understanding tasks. With the recent release of Qwen3, which exhibits superior
performance across diverse benchmarks, there is growing interest in deploying
these models efficiently in resource-constrained environments. Low-bit
quantization presents a promising solution, yet its impact on Qwen3's
performance remains underexplored. This study conducts a systematic evaluation
of Qwen3's robustness under various quantization settings, aiming to uncover
both opportunities and challenges in compressing this state-of-the-art model.
We rigorously assess 5 existing classic post-training quantization techniques
applied to Qwen3, spanning bit-widths from 1 to 8 bits, and evaluate their
effectiveness across multiple datasets. Our findings reveal that while Qwen3
maintains competitive performance at moderate bit-widths, it experiences
notable degradation in linguistic tasks under ultra-low precision, underscoring
the persistent hurdles in LLM compression. These results emphasize the need for
further research to mitigate performance loss in extreme quantization
scenarios. We anticipate that this empirical analysis will provide actionable
insights for advancing quantization methods tailored to Qwen3 and future LLMs,
ultimately enhancing their practicality without compromising accuracy. Our
project is released on https://github.com/Efficient-ML/Qwen3-Quantization and
https://huggingface.co/collections/Efficient-ML/qwen3-quantization-68164450decb1c868788cb2b.Summary
AI-Generated Summary