Eine empirische Studie zur Quantisierung von Qwen3
An Empirical Study of Qwen3 Quantization
May 4, 2025
Autoren: Xingyu Zheng, Yuye Li, Haoran Chu, Yue Feng, Xudong Ma, Jie Luo, Jinyang Guo, Haotong Qin, Michele Magno, Xianglong Liu
cs.AI
Zusammenfassung
Die Qwen-Serie hat sich als führende Familie von Open-Source-Large-Language-Modellen (LLMs) etabliert und zeigt bemerkenswerte Fähigkeiten in Aufgaben des natürlichen Sprachverständnisses. Mit der kürzlichen Veröffentlichung von Qwen3, das überlegene Leistungen in diversen Benchmarks demonstriert, wächst das Interesse daran, diese Modelle effizient in ressourcenbeschränkten Umgebungen einzusetzen. Low-Bit-Quantisierung bietet eine vielversprechende Lösung, doch ihre Auswirkungen auf die Leistung von Qwen3 sind noch unzureichend erforscht. Diese Studie führt eine systematische Bewertung der Robustheit von Qwen3 unter verschiedenen Quantisierungseinstellungen durch, um sowohl Chancen als auch Herausforderungen bei der Komprimierung dieses state-of-the-art Modells aufzudecken. Wir bewerten rigoros fünf bestehende klassische Post-Training-Quantisierungstechniken, die auf Qwen3 angewendet werden, mit Bit-Breiten von 1 bis 8 Bits, und bewerten ihre Wirksamkeit über mehrere Datensätze hinweg. Unsere Ergebnisse zeigen, dass Qwen3 bei moderaten Bit-Breiten wettbewerbsfähige Leistungen beibehält, jedoch bei ultra-niedriger Präzision eine deutliche Verschlechterung in linguistischen Aufgaben erfährt, was die anhaltenden Hürden bei der LLM-Komprimierung unterstreicht. Diese Ergebnisse betonen die Notwendigkeit weiterer Forschung, um Leistungsverluste in extremen Quantisierungsszenarien zu mindern. Wir gehen davon aus, dass diese empirische Analyse praktische Erkenntnisse liefern wird, um Quantisierungsmethoden zu verbessern, die speziell auf Qwen3 und zukünftige LLMs zugeschnitten sind, und letztendlich deren Praktikabilität zu steigern, ohne die Genauigkeit zu beeinträchtigen. Unser Projekt ist auf https://github.com/Efficient-ML/Qwen3-Quantization und https://huggingface.co/collections/Efficient-ML/qwen3-quantization-68164450decb1c868788cb2b veröffentlicht.
English
The Qwen series has emerged as a leading family of open-source Large Language
Models (LLMs), demonstrating remarkable capabilities in natural language
understanding tasks. With the recent release of Qwen3, which exhibits superior
performance across diverse benchmarks, there is growing interest in deploying
these models efficiently in resource-constrained environments. Low-bit
quantization presents a promising solution, yet its impact on Qwen3's
performance remains underexplored. This study conducts a systematic evaluation
of Qwen3's robustness under various quantization settings, aiming to uncover
both opportunities and challenges in compressing this state-of-the-art model.
We rigorously assess 5 existing classic post-training quantization techniques
applied to Qwen3, spanning bit-widths from 1 to 8 bits, and evaluate their
effectiveness across multiple datasets. Our findings reveal that while Qwen3
maintains competitive performance at moderate bit-widths, it experiences
notable degradation in linguistic tasks under ultra-low precision, underscoring
the persistent hurdles in LLM compression. These results emphasize the need for
further research to mitigate performance loss in extreme quantization
scenarios. We anticipate that this empirical analysis will provide actionable
insights for advancing quantization methods tailored to Qwen3 and future LLMs,
ultimately enhancing their practicality without compromising accuracy. Our
project is released on https://github.com/Efficient-ML/Qwen3-Quantization and
https://huggingface.co/collections/Efficient-ML/qwen3-quantization-68164450decb1c868788cb2b.Summary
AI-Generated Summary