Quantisation et dLLMs : Une étude systématique de la quantification post-entraînement pour les LLMs de diffusion
Quantization Meets dLLMs: A Systematic Study of Post-training Quantization for Diffusion LLMs
August 20, 2025
papers.authors: Haokun Lin, Haobo Xu, Yichen Wu, Ziyu Guo, Renrui Zhang, Zhichao Lu, Ying Wei, Qingfu Zhang, Zhenan Sun
cs.AI
papers.abstract
Les récents progrès dans les modèles de langage à grande échelle basés sur la diffusion (dLLMs) ont introduit une alternative prometteuse aux modèles de langage autoregressifs (AR) pour les tâches de génération de langage naturel, en exploitant des stratégies d'attention complète et de décodage basé sur le débruitage. Cependant, le déploiement de ces modèles sur des appareils périphériques reste difficile en raison de leur échelle massive de paramètres et de leurs exigences élevées en ressources. Bien que la quantification post-entraînement (PTQ) soit devenue une technique largement adoptée pour compresser les modèles de langage AR, son applicabilité aux dLLMs reste largement inexplorée. Dans ce travail, nous présentons la première étude systématique sur la quantification des modèles de langage basés sur la diffusion. Nous commençons par identifier la présence de valeurs d'activation aberrantes, caractérisées par des valeurs d'activation anormalement élevées qui dominent la plage dynamique. Ces valeurs aberrantes constituent un défi majeur pour la quantification à faible bit, car elles rendent difficile la préservation de la précision pour la majorité des valeurs. Plus important encore, nous mettons en œuvre des méthodes de PTQ de pointe et menons une évaluation exhaustive sur plusieurs types de tâches et variantes de modèles. Notre analyse est structurée selon quatre dimensions clés : la largeur de bit, la méthode de quantification, la catégorie de tâche et le type de modèle. À travers cette évaluation multi-perspective, nous offrons des insights pratiques sur le comportement de quantification des dLLMs sous différentes configurations. Nous espérons que nos résultats fourniront une base pour les recherches futures sur le déploiement efficace des dLLMs. Tous les codes et configurations expérimentales seront publiés pour soutenir la communauté.
English
Recent advances in diffusion large language models (dLLMs) have introduced a
promising alternative to autoregressive (AR) LLMs for natural language
generation tasks, leveraging full attention and denoising-based decoding
strategies. However, the deployment of these models on edge devices remains
challenging due to their massive parameter scale and high resource demands.
While post-training quantization (PTQ) has emerged as a widely adopted
technique for compressing AR LLMs, its applicability to dLLMs remains largely
unexplored. In this work, we present the first systematic study on quantizing
diffusion-based language models. We begin by identifying the presence of
activation outliers, characterized by abnormally large activation values that
dominate the dynamic range. These outliers pose a key challenge to low-bit
quantization, as they make it difficult to preserve precision for the majority
of values. More importantly, we implement state-of-the-art PTQ methods and
conduct a comprehensive evaluation across multiple task types and model
variants. Our analysis is structured along four key dimensions: bit-width,
quantization method, task category, and model type. Through this
multi-perspective evaluation, we offer practical insights into the quantization
behavior of dLLMs under different configurations. We hope our findings provide
a foundation for future research in efficient dLLM deployment. All codes and
experimental setups will be released to support the community.