Efficient-DLM: 자기회귀에서 확산 언어 모델로, 그리고 속도 향상을 넘어서
Efficient-DLM: From Autoregressive to Diffusion Language Models, and Beyond in Speed
December 16, 2025
저자: Yonggan Fu, Lexington Whalen, Zhifan Ye, Xin Dong, Shizhe Diao, Jingyu Liu, Chengyue Wu, Hao Zhang, Enze Xie, Song Han, Maksim Khadkevich, Jan Kautz, Yingyan Celine Lin, Pavlo Molchanov
cs.AI
초록
확산 언어 모델(dLM)은 병렬 비자회귀적 생성을 가능하게 하는 유망한 패러다임으로 부상했지만, 처음부터 훈련시켰을 때의 학습 효율성은 자회귀적(AR) 언어 모델에 뒤처집니다. 이를 위해 우리는 사전 훈련된 AR 모델을 AR 모델의 과제 정확도를 유지하면서 속도 면에서 뛰어난 효율적인 dLM으로 변환하는 AR-to-dLM 변환을 연구합니다. 우리는 기존 AR-to-dLM 방법들의 어텐션 패턴과 목적 함수의 한계를 규명한 후, 보다 효과적인 AR-to-dLM 변환을 위한 원칙과 방법론을 제안하여 이를 달성합니다. 구체적으로, 우리는 먼저 다양한 어텐션 패턴을 체계적으로 비교하고 사전 훈련된 AR 가중치 분포를 유지하는 것이 효과적인 AR-to-dLM 변환에 중요함을 발견했습니다. 이에 따라 우리는 블록 내에서는 양방향 모델링을 가능하게 하면서도 블록 간에는 인과적 관계를 유지하는 블록 단위 어텐션 패턴과 함께 지속적 사전 훈련 방식을 도입합니다. 우리는 이 접근법이 알려진 KV 캐싱 가능성이라는 장점에 더해, 완전한 양방향 모델링보다 사전 훈련된 AR 모델의 가중치 분포를 더 잘 보존하며 정확도와 효율성에서 상생 효과를 가져옴을 확인했습니다. 둘째, 마스크 토큰 분포(훈련 시 균일 vs. 추론 시 높은 좌-우 방향성)의 훈련-추론 간격을 완화하기 위해, 훈련 시 후반부 토큰에 더 높은 마스킹 확률을 할당하여 추론 시 행동을 더 잘 모방하는 위치 의존적 토큰 마스킹 전략을 제안합니다. 이 프레임워크를 활용하여 우리는 dLM의 어텐션 패턴, 훈련 동역학 및 기타 설계 선택 사항에 대한 광범위한 연구를 수행하여 확장 가능한 AR-to-dLM 변환에 대한 실질적인 통찰을 제공합니다. 이러한 연구를 통해 확립된 Efficient-DLM 패밀리는 최첨단 AR 모델 및 dLM을 능가하며, 예를 들어 우리의 Efficient-DLM 8B는 Dream 7B 및 Qwen3 4B 대비 각각 4.5배/2.7배 높은 처리량으로 +5.4%/+2.7% 더 높은 정확도를 달성합니다.
English
Diffusion language models (dLMs) have emerged as a promising paradigm that enables parallel, non-autoregressive generation, but their learning efficiency lags behind that of autoregressive (AR) language models when trained from scratch. To this end, we study AR-to-dLM conversion to transform pretrained AR models into efficient dLMs that excel in speed while preserving AR models' task accuracy. We achieve this by identifying limitations in the attention patterns and objectives of existing AR-to-dLM methods and then proposing principles and methodologies for more effective AR-to-dLM conversion. Specifically, we first systematically compare different attention patterns and find that maintaining pretrained AR weight distributions is critical for effective AR-to-dLM conversion. As such, we introduce a continuous pretraining scheme with a block-wise attention pattern, which remains causal across blocks while enabling bidirectional modeling within each block. We find that this approach can better preserve pretrained AR models' weight distributions than fully bidirectional modeling, in addition to its known benefit of enabling KV caching, and leads to a win-win in accuracy and efficiency. Second, to mitigate the training-test gap in mask token distributions (uniform vs. highly left-to-right), we propose a position-dependent token masking strategy that assigns higher masking probabilities to later tokens during training to better mimic test-time behavior. Leveraging this framework, we conduct extensive studies of dLMs' attention patterns, training dynamics, and other design choices, providing actionable insights into scalable AR-to-dLM conversion. These studies lead to the Efficient-DLM family, which outperforms state-of-the-art AR models and dLMs, e.g., our Efficient-DLM 8B achieves +5.4%/+2.7% higher accuracy with 4.5x/2.7x higher throughput compared to Dream 7B and Qwen3 4B, respectively.