Eine empirische Studie zur Quantisierung von Qwen3

papers.abstract

Die Qwen-Serie hat sich als führende Familie von Open-Source-Large-Language-Modellen (LLMs) etabliert und zeigt bemerkenswerte Fähigkeiten in Aufgaben des natürlichen Sprachverständnisses. Mit der kürzlichen Veröffentlichung von Qwen3, das überlegene Leistungen in diversen Benchmarks demonstriert, wächst das Interesse daran, diese Modelle effizient in ressourcenbeschränkten Umgebungen einzusetzen. Low-Bit-Quantisierung bietet eine vielversprechende Lösung, doch ihre Auswirkungen auf die Leistung von Qwen3 sind noch unzureichend erforscht. Diese Studie führt eine systematische Bewertung der Robustheit von Qwen3 unter verschiedenen Quantisierungseinstellungen durch, um sowohl Chancen als auch Herausforderungen bei der Komprimierung dieses state-of-the-art Modells aufzudecken. Wir bewerten rigoros fünf bestehende klassische Post-Training-Quantisierungstechniken, die auf Qwen3 angewendet werden, mit Bit-Breiten von 1 bis 8 Bits, und bewerten ihre Wirksamkeit über mehrere Datensätze hinweg. Unsere Ergebnisse zeigen, dass Qwen3 bei moderaten Bit-Breiten wettbewerbsfähige Leistungen beibehält, jedoch bei ultra-niedriger Präzision eine deutliche Verschlechterung in linguistischen Aufgaben erfährt, was die anhaltenden Hürden bei der LLM-Komprimierung unterstreicht. Diese Ergebnisse betonen die Notwendigkeit weiterer Forschung, um Leistungsverluste in extremen Quantisierungsszenarien zu mindern. Wir gehen davon aus, dass diese empirische Analyse praktische Erkenntnisse liefern wird, um Quantisierungsmethoden zu verbessern, die speziell auf Qwen3 und zukünftige LLMs zugeschnitten sind, und letztendlich deren Praktikabilität zu steigern, ohne die Genauigkeit zu beeinträchtigen. Unser Projekt ist auf https://github.com/Efficient-ML/Qwen3-Quantization und https://huggingface.co/collections/Efficient-ML/qwen3-quantization-68164450decb1c868788cb2b veröffentlicht.

English

The Qwen series has emerged as a leading family of open-source Large Language Models (LLMs), demonstrating remarkable capabilities in natural language understanding tasks. With the recent release of Qwen3, which exhibits superior performance across diverse benchmarks, there is growing interest in deploying these models efficiently in resource-constrained environments. Low-bit quantization presents a promising solution, yet its impact on Qwen3's performance remains underexplored. This study conducts a systematic evaluation of Qwen3's robustness under various quantization settings, aiming to uncover both opportunities and challenges in compressing this state-of-the-art model. We rigorously assess 5 existing classic post-training quantization techniques applied to Qwen3, spanning bit-widths from 1 to 8 bits, and evaluate their effectiveness across multiple datasets. Our findings reveal that while Qwen3 maintains competitive performance at moderate bit-widths, it experiences notable degradation in linguistic tasks under ultra-low precision, underscoring the persistent hurdles in LLM compression. These results emphasize the need for further research to mitigate performance loss in extreme quantization scenarios. We anticipate that this empirical analysis will provide actionable insights for advancing quantization methods tailored to Qwen3 and future LLMs, ultimately enhancing their practicality without compromising accuracy. Our project is released on https://github.com/Efficient-ML/Qwen3-Quantization and https://huggingface.co/collections/Efficient-ML/qwen3-quantization-68164450decb1c868788cb2b.

Eine empirische Studie zur Quantisierung von Qwen3

An Empirical Study of Qwen3 Quantization

papers.abstract

Support