Uno Studio Empirico sulla Quantizzazione di Qwen3
An Empirical Study of Qwen3 Quantization
May 4, 2025
Autori: Xingyu Zheng, Yuye Li, Haoran Chu, Yue Feng, Xudong Ma, Jie Luo, Jinyang Guo, Haotong Qin, Michele Magno, Xianglong Liu
cs.AI
Abstract
La serie Qwen si è affermata come una delle principali famiglie di modelli linguistici di grandi dimensioni (LLM) open-source, dimostrando capacità straordinarie nei compiti di comprensione del linguaggio naturale. Con il recente rilascio di Qwen3, che mostra prestazioni superiori su diversi benchmark, cresce l'interesse per l'implementazione efficiente di questi modelli in ambienti con risorse limitate. La quantizzazione a basso bit rappresenta una soluzione promettente, ma il suo impatto sulle prestazioni di Qwen3 rimane ancora poco esplorato. Questo studio conduce una valutazione sistematica della robustezza di Qwen3 in diverse configurazioni di quantizzazione, con l'obiettivo di individuare sia opportunità che sfide nella compressione di questo modello all'avanguardia. Valutiamo rigorosamente 5 tecniche classiche di quantizzazione post-addestramento applicate a Qwen3, coprendo larghezze di bit da 1 a 8 bit, e ne misuriamo l'efficacia su più dataset. I nostri risultati rivelano che, sebbene Qwen3 mantenga prestazioni competitive a larghezze di bit moderate, subisce un degrado significativo nei compiti linguistici in condizioni di precisione ultra-bassa, evidenziando le persistenti difficoltà nella compressione degli LLM. Questi risultati sottolineano la necessità di ulteriori ricerche per mitigare la perdita di prestazioni negli scenari di quantizzazione estrema. Anticipiamo che questa analisi empirica fornirà spunti utili per avanzare i metodi di quantizzazione specifici per Qwen3 e per i futuri LLM, migliorandone infine la praticità senza compromettere l'accuratezza. Il nostro progetto è disponibile su https://github.com/Efficient-ML/Qwen3-Quantization e https://huggingface.co/collections/Efficient-ML/qwen3-quantization-68164450decb1c868788cb2b.
English
The Qwen series has emerged as a leading family of open-source Large Language
Models (LLMs), demonstrating remarkable capabilities in natural language
understanding tasks. With the recent release of Qwen3, which exhibits superior
performance across diverse benchmarks, there is growing interest in deploying
these models efficiently in resource-constrained environments. Low-bit
quantization presents a promising solution, yet its impact on Qwen3's
performance remains underexplored. This study conducts a systematic evaluation
of Qwen3's robustness under various quantization settings, aiming to uncover
both opportunities and challenges in compressing this state-of-the-art model.
We rigorously assess 5 existing classic post-training quantization techniques
applied to Qwen3, spanning bit-widths from 1 to 8 bits, and evaluate their
effectiveness across multiple datasets. Our findings reveal that while Qwen3
maintains competitive performance at moderate bit-widths, it experiences
notable degradation in linguistic tasks under ultra-low precision, underscoring
the persistent hurdles in LLM compression. These results emphasize the need for
further research to mitigate performance loss in extreme quantization
scenarios. We anticipate that this empirical analysis will provide actionable
insights for advancing quantization methods tailored to Qwen3 and future LLMs,
ultimately enhancing their practicality without compromising accuracy. Our
project is released on https://github.com/Efficient-ML/Qwen3-Quantization and
https://huggingface.co/collections/Efficient-ML/qwen3-quantization-68164450decb1c868788cb2b.