ChatPaper.aiChatPaper

Fast-dLLM v2: 효율적인 블록-디퓨전 대형 언어 모델

Fast-dLLM v2: Efficient Block-Diffusion LLM

September 30, 2025
저자: Chengyue Wu, Hao Zhang, Shuchen Xue, Shizhe Diao, Yonggan Fu, Zhijian Liu, Pavlo Molchanov, Ping Luo, Song Han, Enze Xie
cs.AI

초록

자기회귀(AR) 대형 언어 모델(LLM)은 다양한 자연어 처리 작업에서 뛰어난 성능을 달성했지만, 그 내재적인 순차적 디코딩 방식은 추론 효율성을 제한합니다. 본 연구에서는 사전 학습된 AR 모델을 병렬 텍스트 생성을 위한 확산 언어 모델(dLLM)로 효율적으로 변환하는 Fast-dLLM v2를 제안합니다. 이 모델은 약 10억 개의 토큰만으로 미세 조정이 가능하며, 이는 Dream(5800억 토큰)과 같은 전체 주의력 확산 LLM에 비해 500배 적은 학습 데이터를 요구하면서도 원본 모델의 성능을 유지합니다. 우리의 접근 방식은 블록 확산 메커니즘과 보완적인 주의력 마스크를 결합한 새로운 학습 방법을 도입하여, AR 학습 목표를 희생하지 않으면서 블록 단위의 양방향 컨텍스트 모델링을 가능하게 합니다. 디코딩 속도를 더욱 가속화하기 위해, 우리는 계층적 캐싱 메커니즘을 설계했습니다: 블록 수준 캐시는 블록 간의 과거 컨텍스트 표현을 저장하고, 서브 블록 캐시는 부분적으로 디코딩된 블록 내에서 효율적인 병렬 생성을 가능하게 합니다. 우리의 병렬 디코딩 파이프라인과 결합된 Fast-dLLM v2는 표준 AR 디코딩 대비 최대 2.5배의 속도 향상을 달성하면서도 생성 품질을 저하시키지 않습니다. 다양한 벤치마크에서의 광범위한 실험을 통해 Fast-dLLM v2는 정확도 면에서 AR 기준 모델과 동등하거나 이를 능가하며, dLLM 중에서도 최고 수준의 효율성을 제공함을 입증했습니다. 이는 빠르고 정확한 LLM의 실용적 배포를 위한 중요한 진전을 의미합니다. 코드와 모델은 공개될 예정입니다.
English
Autoregressive (AR) large language models (LLMs) have achieved remarkable performance across a wide range of natural language tasks, yet their inherent sequential decoding limits inference efficiency. In this work, we propose Fast-dLLM v2, a carefully designed block diffusion language model (dLLM) that efficiently adapts pretrained AR models into dLLMs for parallel text generation, requiring only approximately 1B tokens of fine-tuning. This represents a 500x reduction in training data compared to full-attention diffusion LLMs such as Dream (580B tokens), while preserving the original model's performance. Our approach introduces a novel training recipe that combines a block diffusion mechanism with a complementary attention mask, enabling blockwise bidirectional context modeling without sacrificing AR training objectives. To further accelerate decoding, we design a hierarchical caching mechanism: a block-level cache that stores historical context representations across blocks, and a sub-block cache that enables efficient parallel generation within partially decoded blocks. Coupled with our parallel decoding pipeline, Fast-dLLM v2 achieves up to 2.5x speedup over standard AR decoding without compromising generation quality. Extensive experiments across diverse benchmarks demonstrate that Fast-dLLM v2 matches or surpasses AR baselines in accuracy, while delivering state-of-the-art efficiency among dLLMs - marking a significant step toward the practical deployment of fast and accurate LLMs. Code and model will be publicly released.
PDF447October 8, 2025