Quantizzazione incontra i dLLM: Uno Studio Sistematico sulla Quantizzazione Post-Addestramento per Modelli Linguistici di Diffusione
Quantization Meets dLLMs: A Systematic Study of Post-training Quantization for Diffusion LLMs
August 20, 2025
Autori: Haokun Lin, Haobo Xu, Yichen Wu, Ziyu Guo, Renrui Zhang, Zhichao Lu, Ying Wei, Qingfu Zhang, Zhenan Sun
cs.AI
Abstract
I recenti progressi nei modelli linguistici di grandi dimensioni basati su diffusione (dLLM) hanno introdotto una valida alternativa ai modelli linguistici autoregressivi (AR) per le attività di generazione del linguaggio naturale, sfruttando strategie di decodifica basate sull'attenzione completa e sul denoising. Tuttavia, il dispiegamento di questi modelli su dispositivi edge rimane impegnativo a causa della loro vasta scala di parametri e delle elevate richieste di risorse. Sebbene la quantizzazione post-addestramento (PTQ) sia emersa come una tecnica ampiamente adottata per comprimere i modelli linguistici AR, la sua applicabilità ai dLLM rimane in gran parte inesplorata. In questo lavoro, presentiamo il primo studio sistematico sulla quantizzazione dei modelli linguistici basati su diffusione. Iniziamo identificando la presenza di outlier di attivazione, caratterizzati da valori di attivazione anormalmente grandi che dominano l'intervallo dinamico. Questi outlier rappresentano una sfida chiave per la quantizzazione a basso numero di bit, poiché rendono difficile preservare la precisione per la maggior parte dei valori. Ancora più importante, implementiamo metodi PTQ all'avanguardia e conduciamo una valutazione completa su più tipi di attività e varianti di modelli. La nostra analisi è strutturata lungo quattro dimensioni chiave: larghezza di bit, metodo di quantizzazione, categoria di attività e tipo di modello. Attraverso questa valutazione multi-prospettica, offriamo intuizioni pratiche sul comportamento di quantizzazione dei dLLM sotto diverse configurazioni. Speriamo che i nostri risultati forniscano una base per future ricerche sul dispiegamento efficiente dei dLLM. Tutti i codici e le configurazioni sperimentali saranno rilasciati per supportare la comunità.
English
Recent advances in diffusion large language models (dLLMs) have introduced a
promising alternative to autoregressive (AR) LLMs for natural language
generation tasks, leveraging full attention and denoising-based decoding
strategies. However, the deployment of these models on edge devices remains
challenging due to their massive parameter scale and high resource demands.
While post-training quantization (PTQ) has emerged as a widely adopted
technique for compressing AR LLMs, its applicability to dLLMs remains largely
unexplored. In this work, we present the first systematic study on quantizing
diffusion-based language models. We begin by identifying the presence of
activation outliers, characterized by abnormally large activation values that
dominate the dynamic range. These outliers pose a key challenge to low-bit
quantization, as they make it difficult to preserve precision for the majority
of values. More importantly, we implement state-of-the-art PTQ methods and
conduct a comprehensive evaluation across multiple task types and model
variants. Our analysis is structured along four key dimensions: bit-width,
quantization method, task category, and model type. Through this
multi-perspective evaluation, we offer practical insights into the quantization
behavior of dLLMs under different configurations. We hope our findings provide
a foundation for future research in efficient dLLM deployment. All codes and
experimental setups will be released to support the community.