Qwen3量子化の実証的研究
An Empirical Study of Qwen3 Quantization
May 4, 2025
著者: Xingyu Zheng, Yuye Li, Haoran Chu, Yue Feng, Xudong Ma, Jie Luo, Jinyang Guo, Haotong Qin, Michele Magno, Xianglong Liu
cs.AI
要旨
Qwenシリーズは、オープンソースの大規模言語モデル(LLM)ファミリーとして注目を集めており、自然言語理解タスクにおいて卓越した能力を発揮しています。最近リリースされたQwen3は、多様なベンチマークで優れた性能を示しており、リソースが限られた環境での効率的な展開に対する関心が高まっています。低ビット量子化は有望な解決策を提供しますが、Qwen3の性能への影響はまだ十分に検証されていません。本研究では、Qwen3の堅牢性を様々な量子化設定下で体系的に評価し、この最先端モデルを圧縮する際の機会と課題を明らかにすることを目指しています。1ビットから8ビットまでのビット幅にわたる5つの既存のポストトレーニング量子化技術をQwen3に適用し、複数のデータセットでその有効性を厳密に評価しました。その結果、Qwen3は中程度のビット幅では競争力のある性能を維持するものの、超低精度下では言語タスクにおいて顕著な性能低下が見られ、LLM圧縮における持続的な課題が浮き彫りになりました。これらの結果は、極端な量子化シナリオにおける性能低下を軽減するためのさらなる研究の必要性を強調しています。本実証分析が、Qwen3および将来のLLMに特化した量子化手法の進展に役立つ実践的な知見を提供し、精度を損なうことなく実用性を高めることを期待しています。本プロジェクトは、https://github.com/Efficient-ML/Qwen3-Quantization および https://huggingface.co/collections/Efficient-ML/qwen3-quantization-68164450decb1c868788cb2b で公開されています。
English
The Qwen series has emerged as a leading family of open-source Large Language
Models (LLMs), demonstrating remarkable capabilities in natural language
understanding tasks. With the recent release of Qwen3, which exhibits superior
performance across diverse benchmarks, there is growing interest in deploying
these models efficiently in resource-constrained environments. Low-bit
quantization presents a promising solution, yet its impact on Qwen3's
performance remains underexplored. This study conducts a systematic evaluation
of Qwen3's robustness under various quantization settings, aiming to uncover
both opportunities and challenges in compressing this state-of-the-art model.
We rigorously assess 5 existing classic post-training quantization techniques
applied to Qwen3, spanning bit-widths from 1 to 8 bits, and evaluate their
effectiveness across multiple datasets. Our findings reveal that while Qwen3
maintains competitive performance at moderate bit-widths, it experiences
notable degradation in linguistic tasks under ultra-low precision, underscoring
the persistent hurdles in LLM compression. These results emphasize the need for
further research to mitigate performance loss in extreme quantization
scenarios. We anticipate that this empirical analysis will provide actionable
insights for advancing quantization methods tailored to Qwen3 and future LLMs,
ultimately enhancing their practicality without compromising accuracy. Our
project is released on https://github.com/Efficient-ML/Qwen3-Quantization and
https://huggingface.co/collections/Efficient-ML/qwen3-quantization-68164450decb1c868788cb2b.Summary
AI-Generated Summary