ChatPaper.aiChatPaper

Kwantisering ontmoet dLLM's: Een systematische studie van post-training kwantisering voor diffusie LLM's

Quantization Meets dLLMs: A Systematic Study of Post-training Quantization for Diffusion LLMs

August 20, 2025
Auteurs: Haokun Lin, Haobo Xu, Yichen Wu, Ziyu Guo, Renrui Zhang, Zhichao Lu, Ying Wei, Qingfu Zhang, Zhenan Sun
cs.AI

Samenvatting

Recente ontwikkelingen in diffusie grote taalmodellen (dLLMs) hebben een veelbelovend alternatief geïntroduceerd voor autoregressieve (AR) LLMs bij taken voor natuurlijke taalgeneratie, waarbij gebruik wordt gemaakt van volledige aandacht en decodeerstrategieën gebaseerd op ruisvermindering. De implementatie van deze modellen op edge-apparaten blijft echter een uitdaging vanwege hun enorme parameterschaal en hoge resourcebehoeften. Hoewel post-training kwantisatie (PTQ) een veelgebruikte techniek is geworden voor het comprimeren van AR LLMs, is de toepasbaarheid ervan op dLLMs grotendeels onontgonnen. In dit werk presenteren we de eerste systematische studie naar het kwantiseren van diffusiegebaseerde taalmodellen. We beginnen met het identificeren van de aanwezigheid van activatie-uitbijters, gekenmerkt door abnormaal grote activatiewaarden die het dynamische bereik domineren. Deze uitbijters vormen een belangrijke uitdaging voor kwantisatie met een laag aantal bits, omdat het moeilijk is om de precisie voor de meerderheid van de waarden te behouden. Belangrijker nog, we implementeren state-of-the-art PTQ-methoden en voeren een uitgebreide evaluatie uit over meerdere taaktypen en modelvarianten. Onze analyse is gestructureerd langs vier belangrijke dimensies: bitbreedte, kwantisatiemethode, taakcategorie en modeltype. Door deze multi-perspectieve evaluatie bieden we praktische inzichten in het kwantisatiegedrag van dLLMs onder verschillende configuraties. We hopen dat onze bevindingen een basis bieden voor toekomstig onderzoek naar efficiënte implementatie van dLLMs. Alle codes en experimentele opstellingen zullen worden vrijgegeven ter ondersteuning van de gemeenschap.
English
Recent advances in diffusion large language models (dLLMs) have introduced a promising alternative to autoregressive (AR) LLMs for natural language generation tasks, leveraging full attention and denoising-based decoding strategies. However, the deployment of these models on edge devices remains challenging due to their massive parameter scale and high resource demands. While post-training quantization (PTQ) has emerged as a widely adopted technique for compressing AR LLMs, its applicability to dLLMs remains largely unexplored. In this work, we present the first systematic study on quantizing diffusion-based language models. We begin by identifying the presence of activation outliers, characterized by abnormally large activation values that dominate the dynamic range. These outliers pose a key challenge to low-bit quantization, as they make it difficult to preserve precision for the majority of values. More importantly, we implement state-of-the-art PTQ methods and conduct a comprehensive evaluation across multiple task types and model variants. Our analysis is structured along four key dimensions: bit-width, quantization method, task category, and model type. Through this multi-perspective evaluation, we offer practical insights into the quantization behavior of dLLMs under different configurations. We hope our findings provide a foundation for future research in efficient dLLM deployment. All codes and experimental setups will be released to support the community.
PDF222August 21, 2025