Квантование встречает dLLM: Систематическое исследование посттренировочного квантования для диффузионных больших языковых моделей

Аннотация

Недавние достижения в области диффузионных больших языковых моделей (dLLM) представили многообещающую альтернативу авторегрессивным (AR) LLM для задач генерации естественного языка, используя стратегии полного внимания и декодирования на основе шумоподавления. Однако развертывание этих моделей на периферийных устройствах остается сложной задачей из-за их огромного масштаба параметров и высоких требований к ресурсам. Хотя посттренировочная квантизация (PTQ) стала широко применяемой техникой для сжатия AR LLM, ее применимость к dLLM остается в значительной степени неисследованной. В данной работе мы представляем первое систематическое исследование по квантизации диффузионных языковых моделей. Мы начинаем с выявления наличия выбросов активации, характеризующихся аномально большими значениями активации, которые доминируют в динамическом диапазоне. Эти выбросы представляют собой ключевую проблему для низкобитовой квантизации, так как они затрудняют сохранение точности для большинства значений. Более того, мы реализуем современные методы PTQ и проводим всестороннюю оценку по множеству типов задач и вариантов моделей. Наш анализ структурирован по четырем ключевым направлениям: битовая ширина, метод квантизации, категория задачи и тип модели. Благодаря этой многоперспективной оценке мы предлагаем практические инсайты о поведении квантизации dLLM при различных конфигурациях. Мы надеемся, что наши результаты послужат основой для будущих исследований в области эффективного развертывания dLLM. Все коды и экспериментальные настройки будут опубликованы для поддержки сообщества.

English

Recent advances in diffusion large language models (dLLMs) have introduced a promising alternative to autoregressive (AR) LLMs for natural language generation tasks, leveraging full attention and denoising-based decoding strategies. However, the deployment of these models on edge devices remains challenging due to their massive parameter scale and high resource demands. While post-training quantization (PTQ) has emerged as a widely adopted technique for compressing AR LLMs, its applicability to dLLMs remains largely unexplored. In this work, we present the first systematic study on quantizing diffusion-based language models. We begin by identifying the presence of activation outliers, characterized by abnormally large activation values that dominate the dynamic range. These outliers pose a key challenge to low-bit quantization, as they make it difficult to preserve precision for the majority of values. More importantly, we implement state-of-the-art PTQ methods and conduct a comprehensive evaluation across multiple task types and model variants. Our analysis is structured along four key dimensions: bit-width, quantization method, task category, and model type. Through this multi-perspective evaluation, we offer practical insights into the quantization behavior of dLLMs under different configurations. We hope our findings provide a foundation for future research in efficient dLLM deployment. All codes and experimental setups will be released to support the community.

Квантование встречает dLLM: Систематическое исследование посттренировочного квантования для диффузионных больших языковых моделей

Quantization Meets dLLMs: A Systematic Study of Post-training Quantization for Diffusion LLMs

Аннотация

Support