Quantization trifft auf dLLMs: Eine systematische Untersuchung der Post-Training-Quantisierung für Diffusions-LLMs
Quantization Meets dLLMs: A Systematic Study of Post-training Quantization for Diffusion LLMs
August 20, 2025
papers.authors: Haokun Lin, Haobo Xu, Yichen Wu, Ziyu Guo, Renrui Zhang, Zhichao Lu, Ying Wei, Qingfu Zhang, Zhenan Sun
cs.AI
papers.abstract
Jüngste Fortschritte bei diffusionsbasierten großen Sprachmodellen (dLLMs) haben eine vielversprechende Alternative zu autoregressiven (AR) LLMs für Aufgaben der natürlichen Sprachgenerierung eingeführt, die volle Aufmerksamkeit und auf Rauschunterdrückung basierende Dekodierungsstrategien nutzen. Die Bereitstellung dieser Modelle auf Edge-Geräten bleibt jedoch aufgrund ihres massiven Parameterumfangs und hohen Ressourcenbedarfs eine Herausforderung. Während die Quantisierung nach dem Training (PTQ) als weit verbreitete Technik zur Komprimierung von AR LLMs hervorgegangen ist, ist ihre Anwendbarkeit auf dLLMs weitgehend unerforscht. In dieser Arbeit präsentieren wir die erste systematische Studie zur Quantisierung diffusionsbasierter Sprachmodelle. Wir beginnen mit der Identifizierung von Aktivierungsausreißern, die durch ungewöhnlich große Aktivierungswerte gekennzeichnet sind, die den dynamischen Bereich dominieren. Diese Ausreißer stellen eine zentrale Herausforderung für die Quantisierung mit niedriger Bitbreite dar, da sie es schwierig machen, die Präzision für die Mehrheit der Werte zu bewahren. Darüber hinaus implementieren wir modernste PTQ-Methoden und führen eine umfassende Bewertung über mehrere Aufgabentypen und Modellvarianten hinweg durch. Unsere Analyse ist entlang vier Schlüsseldimensionen strukturiert: Bitbreite, Quantisierungsmethode, Aufgabenkategorie und Modelltyp. Durch diese multiperspektivische Bewertung bieten wir praktische Einblicke in das Quantisierungsverhalten von dLLMs unter verschiedenen Konfigurationen. Wir hoffen, dass unsere Erkenntnisse eine Grundlage für zukünftige Forschungen zur effizienten Bereitstellung von dLLMs bieten. Alle Codes und experimentellen Aufbauten werden veröffentlicht, um die Community zu unterstützen.
English
Recent advances in diffusion large language models (dLLMs) have introduced a
promising alternative to autoregressive (AR) LLMs for natural language
generation tasks, leveraging full attention and denoising-based decoding
strategies. However, the deployment of these models on edge devices remains
challenging due to their massive parameter scale and high resource demands.
While post-training quantization (PTQ) has emerged as a widely adopted
technique for compressing AR LLMs, its applicability to dLLMs remains largely
unexplored. In this work, we present the first systematic study on quantizing
diffusion-based language models. We begin by identifying the presence of
activation outliers, characterized by abnormally large activation values that
dominate the dynamic range. These outliers pose a key challenge to low-bit
quantization, as they make it difficult to preserve precision for the majority
of values. More importantly, we implement state-of-the-art PTQ methods and
conduct a comprehensive evaluation across multiple task types and model
variants. Our analysis is structured along four key dimensions: bit-width,
quantization method, task category, and model type. Through this
multi-perspective evaluation, we offer practical insights into the quantization
behavior of dLLMs under different configurations. We hope our findings provide
a foundation for future research in efficient dLLM deployment. All codes and
experimental setups will be released to support the community.