Эмпирическое исследование квантования Qwen3
An Empirical Study of Qwen3 Quantization
May 4, 2025
Авторы: Xingyu Zheng, Yuye Li, Haoran Chu, Yue Feng, Xudong Ma, Jie Luo, Jinyang Guo, Haotong Qin, Michele Magno, Xianglong Liu
cs.AI
Аннотация
Серия моделей Qwen стала ведущим семейством открытых больших языковых моделей (LLM), демонстрируя выдающиеся способности в задачах понимания естественного языка. С недавним выпуском Qwen3, который показывает превосходную производительность на различных бенчмарках, растет интерес к эффективному развертыванию этих моделей в условиях ограниченных ресурсов. Низкобитная квантизация представляет собой перспективное решение, однако ее влияние на производительность Qwen3 остается недостаточно изученным. В данном исследовании проводится систематическая оценка устойчивости Qwen3 при различных настройках квантизации с целью выявления как возможностей, так и проблем при сжатии этой передовой модели. Мы тщательно оцениваем 5 существующих классических методов посттренировочной квантизации, примененных к Qwen3, охватывая битовые диапазоны от 1 до 8 бит, и оцениваем их эффективность на множестве наборов данных. Наши результаты показывают, что хотя Qwen3 сохраняет конкурентоспособную производительность при умеренных битовых диапазонах, она испытывает значительное ухудшение в лингвистических задачах при сверхнизкой точности, что подчеркивает сохраняющиеся трудности в сжатии LLM. Эти результаты подчеркивают необходимость дальнейших исследований для снижения потери производительности в экстремальных сценариях квантизации. Мы ожидаем, что этот эмпирический анализ предоставит практические рекомендации для разработки методов квантизации, адаптированных для Qwen3 и будущих LLM, что в конечном итоге повысит их практичность без ущерба для точности. Наш проект доступен по адресам https://github.com/Efficient-ML/Qwen3-Quantization и https://huggingface.co/collections/Efficient-ML/qwen3-quantization-68164450decb1c868788cb2b.
English
The Qwen series has emerged as a leading family of open-source Large Language
Models (LLMs), demonstrating remarkable capabilities in natural language
understanding tasks. With the recent release of Qwen3, which exhibits superior
performance across diverse benchmarks, there is growing interest in deploying
these models efficiently in resource-constrained environments. Low-bit
quantization presents a promising solution, yet its impact on Qwen3's
performance remains underexplored. This study conducts a systematic evaluation
of Qwen3's robustness under various quantization settings, aiming to uncover
both opportunities and challenges in compressing this state-of-the-art model.
We rigorously assess 5 existing classic post-training quantization techniques
applied to Qwen3, spanning bit-widths from 1 to 8 bits, and evaluate their
effectiveness across multiple datasets. Our findings reveal that while Qwen3
maintains competitive performance at moderate bit-widths, it experiences
notable degradation in linguistic tasks under ultra-low precision, underscoring
the persistent hurdles in LLM compression. These results emphasize the need for
further research to mitigate performance loss in extreme quantization
scenarios. We anticipate that this empirical analysis will provide actionable
insights for advancing quantization methods tailored to Qwen3 and future LLMs,
ultimately enhancing their practicality without compromising accuracy. Our
project is released on https://github.com/Efficient-ML/Qwen3-Quantization and
https://huggingface.co/collections/Efficient-ML/qwen3-quantization-68164450decb1c868788cb2b.Summary
AI-Generated Summary