ChatPaper.aiChatPaper

양자화가 dLLMs를 만나다: 확산 LLM을 위한 사후 학습 양자화에 대한 체계적 연구

Quantization Meets dLLMs: A Systematic Study of Post-training Quantization for Diffusion LLMs

August 20, 2025
저자: Haokun Lin, Haobo Xu, Yichen Wu, Ziyu Guo, Renrui Zhang, Zhichao Lu, Ying Wei, Qingfu Zhang, Zhenan Sun
cs.AI

초록

최근 확산 기반 대형 언어 모델(diffusion large language models, dLLMs)의 발전은 자연어 생성 작업을 위한 자기회귀(autoregressive, AR) LLMs에 대한 유망한 대안으로 부상하며, 전체 어텐션(full attention)과 잡음 제거 기반 디코딩 전략을 활용하고 있습니다. 그러나 이러한 모델들은 엣지 디바이스에서의 배포가 여전히 어려운데, 이는 모델의 방대한 파라미터 규모와 높은 자원 요구 때문입니다. 사후 학습 양자화(post-training quantization, PTQ)가 AR LLMs를 압축하기 위해 널리 채택된 기술로 부상했지만, dLLMs에 대한 적용 가능성은 여전히 크게 탐구되지 않았습니다. 본 연구에서는 확산 기반 언어 모델의 양자화에 대한 첫 번째 체계적인 연구를 제시합니다. 우리는 먼저 비정상적으로 큰 활성화 값으로 특징지어지는 활성화 이상치(activation outliers)의 존재를 확인했습니다. 이러한 이상치는 대부분의 값에 대한 정밀도를 유지하기 어렵게 만들어 저비트 양자화의 주요 도전 과제로 작용합니다. 더 중요한 것은, 우리는 최신 PTQ 방법들을 구현하고 다양한 작업 유형과 모델 변형에 걸쳐 포괄적인 평가를 수행했습니다. 우리의 분석은 비트 폭(bit-width), 양자화 방법, 작업 범주, 모델 유형이라는 네 가지 핵심 차원을 따라 구조화되었습니다. 이러한 다각적 평가를 통해, 우리는 다양한 구성 하에서 dLLMs의 양자화 동작에 대한 실질적인 통찰을 제공합니다. 우리의 연구 결과가 효율적인 dLLMs 배포를 위한 미래 연구의 기반이 되길 바랍니다. 모든 코드와 실험 설정은 커뮤니티를 지원하기 위해 공개될 예정입니다.
English
Recent advances in diffusion large language models (dLLMs) have introduced a promising alternative to autoregressive (AR) LLMs for natural language generation tasks, leveraging full attention and denoising-based decoding strategies. However, the deployment of these models on edge devices remains challenging due to their massive parameter scale and high resource demands. While post-training quantization (PTQ) has emerged as a widely adopted technique for compressing AR LLMs, its applicability to dLLMs remains largely unexplored. In this work, we present the first systematic study on quantizing diffusion-based language models. We begin by identifying the presence of activation outliers, characterized by abnormally large activation values that dominate the dynamic range. These outliers pose a key challenge to low-bit quantization, as they make it difficult to preserve precision for the majority of values. More importantly, we implement state-of-the-art PTQ methods and conduct a comprehensive evaluation across multiple task types and model variants. Our analysis is structured along four key dimensions: bit-width, quantization method, task category, and model type. Through this multi-perspective evaluation, we offer practical insights into the quantization behavior of dLLMs under different configurations. We hope our findings provide a foundation for future research in efficient dLLM deployment. All codes and experimental setups will be released to support the community.
PDF192August 21, 2025