Cuantización y dLLMs: Un Estudio Sistemático de la Cuantización Post-entrenamiento para Modelos de Lenguaje de Difusión
Quantization Meets dLLMs: A Systematic Study of Post-training Quantization for Diffusion LLMs
August 20, 2025
Autores: Haokun Lin, Haobo Xu, Yichen Wu, Ziyu Guo, Renrui Zhang, Zhichao Lu, Ying Wei, Qingfu Zhang, Zhenan Sun
cs.AI
Resumen
Los recientes avances en los modelos de lenguaje de difusión a gran escala (dLLMs, por sus siglas en inglés) han introducido una alternativa prometedora a los modelos de lenguaje autoregresivos (AR) para tareas de generación de lenguaje natural, aprovechando estrategias de atención completa y decodificación basada en eliminación de ruido. Sin embargo, el despliegue de estos modelos en dispositivos de borde sigue siendo un desafío debido a su enorme escala de parámetros y altas demandas de recursos. Si bien la cuantización posterior al entrenamiento (PTQ, por sus siglas en inglés) ha surgido como una técnica ampliamente adoptada para comprimir modelos AR, su aplicabilidad a los dLLMs sigue siendo en gran medida inexplorada. En este trabajo, presentamos el primer estudio sistemático sobre la cuantización de modelos de lenguaje basados en difusión. Comenzamos identificando la presencia de valores atípicos en las activaciones, caracterizados por valores de activación anormalmente grandes que dominan el rango dinámico. Estos valores atípicos representan un desafío clave para la cuantización de bajo bit, ya que dificultan la preservación de la precisión para la mayoría de los valores. Más importante aún, implementamos métodos de PTQ de vanguardia y realizamos una evaluación exhaustiva en múltiples tipos de tareas y variantes de modelos. Nuestro análisis se estructura en torno a cuatro dimensiones clave: ancho de bit, método de cuantización, categoría de tarea y tipo de modelo. A través de esta evaluación multiperspectiva, ofrecemos ideas prácticas sobre el comportamiento de cuantización de los dLLMs bajo diferentes configuraciones. Esperamos que nuestros hallazgos proporcionen una base para futuras investigaciones en el despliegue eficiente de dLLMs. Todos los códigos y configuraciones experimentales se liberarán para apoyar a la comunidad.
English
Recent advances in diffusion large language models (dLLMs) have introduced a
promising alternative to autoregressive (AR) LLMs for natural language
generation tasks, leveraging full attention and denoising-based decoding
strategies. However, the deployment of these models on edge devices remains
challenging due to their massive parameter scale and high resource demands.
While post-training quantization (PTQ) has emerged as a widely adopted
technique for compressing AR LLMs, its applicability to dLLMs remains largely
unexplored. In this work, we present the first systematic study on quantizing
diffusion-based language models. We begin by identifying the presence of
activation outliers, characterized by abnormally large activation values that
dominate the dynamic range. These outliers pose a key challenge to low-bit
quantization, as they make it difficult to preserve precision for the majority
of values. More importantly, we implement state-of-the-art PTQ methods and
conduct a comprehensive evaluation across multiple task types and model
variants. Our analysis is structured along four key dimensions: bit-width,
quantization method, task category, and model type. Through this
multi-perspective evaluation, we offer practical insights into the quantization
behavior of dLLMs under different configurations. We hope our findings provide
a foundation for future research in efficient dLLM deployment. All codes and
experimental setups will be released to support the community.