Quantização Encontra dLLMs: Um Estudo Sistemático de Quantização Pós-treinamento para LLMs de Difusão
Quantization Meets dLLMs: A Systematic Study of Post-training Quantization for Diffusion LLMs
August 20, 2025
Autores: Haokun Lin, Haobo Xu, Yichen Wu, Ziyu Guo, Renrui Zhang, Zhichao Lu, Ying Wei, Qingfu Zhang, Zhenan Sun
cs.AI
Resumo
Avanços recentes em modelos de linguagem de grande escala baseados em difusão (dLLMs) introduziram uma alternativa promissora aos modelos de linguagem autoregressivos (AR) para tarefas de geração de linguagem natural, aproveitando estratégias de atenção completa e decodificação baseada em remoção de ruído. No entanto, a implantação desses modelos em dispositivos de borda continua desafiadora devido à sua escala massiva de parâmetros e altas demandas de recursos. Embora a quantização pós-treinamento (PTQ) tenha surgido como uma técnica amplamente adotada para comprimir modelos AR LLMs, sua aplicabilidade a dLLMs permanece amplamente inexplorada. Neste trabalho, apresentamos o primeiro estudo sistemático sobre a quantização de modelos de linguagem baseados em difusão. Começamos identificando a presença de outliers de ativação, caracterizados por valores de ativação anormalmente grandes que dominam a faixa dinâmica. Esses outliers representam um desafio chave para a quantização de baixo bit, pois dificultam a preservação da precisão para a maioria dos valores. Mais importante, implementamos métodos de PTQ de última geração e conduzimos uma avaliação abrangente em vários tipos de tarefas e variantes de modelos. Nossa análise é estruturada ao longo de quatro dimensões principais: largura de bit, método de quantização, categoria de tarefa e tipo de modelo. Através dessa avaliação multiperspectiva, oferecemos insights práticos sobre o comportamento de quantização de dLLMs sob diferentes configurações. Esperamos que nossas descobertas forneçam uma base para pesquisas futuras na implantação eficiente de dLLMs. Todos os códigos e configurações experimentais serão liberados para apoiar a comunidade.
English
Recent advances in diffusion large language models (dLLMs) have introduced a
promising alternative to autoregressive (AR) LLMs for natural language
generation tasks, leveraging full attention and denoising-based decoding
strategies. However, the deployment of these models on edge devices remains
challenging due to their massive parameter scale and high resource demands.
While post-training quantization (PTQ) has emerged as a widely adopted
technique for compressing AR LLMs, its applicability to dLLMs remains largely
unexplored. In this work, we present the first systematic study on quantizing
diffusion-based language models. We begin by identifying the presence of
activation outliers, characterized by abnormally large activation values that
dominate the dynamic range. These outliers pose a key challenge to low-bit
quantization, as they make it difficult to preserve precision for the majority
of values. More importantly, we implement state-of-the-art PTQ methods and
conduct a comprehensive evaluation across multiple task types and model
variants. Our analysis is structured along four key dimensions: bit-width,
quantization method, task category, and model type. Through this
multi-perspective evaluation, we offer practical insights into the quantization
behavior of dLLMs under different configurations. We hope our findings provide
a foundation for future research in efficient dLLM deployment. All codes and
experimental setups will be released to support the community.