ChatPaper.aiChatPaper

量子化と拡散型大規模言語モデルの出会い:拡散型LLMのポストトレーニング量子化に関する体系的研究

Quantization Meets dLLMs: A Systematic Study of Post-training Quantization for Diffusion LLMs

August 20, 2025
著者: Haokun Lin, Haobo Xu, Yichen Wu, Ziyu Guo, Renrui Zhang, Zhichao Lu, Ying Wei, Qingfu Zhang, Zhenan Sun
cs.AI

要旨

拡散型大規模言語モデル(dLLM)の最近の進展により、自然言語生成タスクにおいて自己回帰型(AR)LLMの有望な代替手段が導入され、完全なアテンションとノイズ除去ベースのデコーディング戦略を活用しています。しかし、これらのモデルをエッジデバイスに展開することは、その膨大なパラメータ規模と高いリソース要求のため、依然として困難です。AR LLMの圧縮技術として広く採用されているポストトレーニング量子化(PTQ)が登場していますが、dLLMへの適用性はほとんど検討されていません。本研究では、拡散ベースの言語モデルの量子化に関する最初の体系的な研究を提示します。まず、動的範囲を支配する異常に大きな活性化値を特徴とする活性化外れ値の存在を特定します。これらの外れ値は、大多数の値の精度を維持することを困難にするため、低ビット量子化における主要な課題となります。さらに重要なことに、最先端のPTQ手法を実装し、複数のタスクタイプとモデルバリアントにわたる包括的な評価を実施します。我々の分析は、ビット幅、量子化手法、タスクカテゴリ、モデルタイプという4つの主要な次元に沿って構成されています。この多角的な評価を通じて、異なる設定下でのdLLMの量子化挙動に関する実践的な洞察を提供します。我々の知見が、効率的なdLLM展開のための将来の研究の基盤となることを期待しています。すべてのコードと実験設定をコミュニティの支援のために公開します。
English
Recent advances in diffusion large language models (dLLMs) have introduced a promising alternative to autoregressive (AR) LLMs for natural language generation tasks, leveraging full attention and denoising-based decoding strategies. However, the deployment of these models on edge devices remains challenging due to their massive parameter scale and high resource demands. While post-training quantization (PTQ) has emerged as a widely adopted technique for compressing AR LLMs, its applicability to dLLMs remains largely unexplored. In this work, we present the first systematic study on quantizing diffusion-based language models. We begin by identifying the presence of activation outliers, characterized by abnormally large activation values that dominate the dynamic range. These outliers pose a key challenge to low-bit quantization, as they make it difficult to preserve precision for the majority of values. More importantly, we implement state-of-the-art PTQ methods and conduct a comprehensive evaluation across multiple task types and model variants. Our analysis is structured along four key dimensions: bit-width, quantization method, task category, and model type. Through this multi-perspective evaluation, we offer practical insights into the quantization behavior of dLLMs under different configurations. We hope our findings provide a foundation for future research in efficient dLLM deployment. All codes and experimental setups will be released to support the community.
PDF192August 21, 2025