ChatPaper.aiChatPaper

Efficient-DLM: Van autoregressieve naar diffusie-taalmodellen, en verder in snelheid

Efficient-DLM: From Autoregressive to Diffusion Language Models, and Beyond in Speed

December 16, 2025
Auteurs: Yonggan Fu, Lexington Whalen, Zhifan Ye, Xin Dong, Shizhe Diao, Jingyu Liu, Chengyue Wu, Hao Zhang, Enze Xie, Song Han, Maksim Khadkevich, Jan Kautz, Yingyan Celine Lin, Pavlo Molchanov
cs.AI

Samenvatting

Diffusietaalmodellen (dLM's) zijn naar voren gekomen als een veelbelovend paradigma dat parallelle, niet-autoregressieve generatie mogelijk maakt, maar hun leerrendement blijft achter bij dat van autoregressieve (AR) taalmodellen wanneer ze vanaf nul worden getraind. Daarom bestuderen we AR-naar-dLM-conversie om voorgetrainde AR-modellen om te zetten in efficiënte dLM's die uitblinken in snelheid en tegelijkertijd de taaknauwkeurigheid van AR-modellen behouden. We bereiken dit door beperkingen in de aandachtspatronen en doelstellingen van bestaande AR-naar-dLM-methoden te identificeren en vervolgens principes en methodologieën voor te stellen voor een effectievere AR-naar-dLM-conversie. Concreet vergelijken we eerst systematisch verschillende aandachtspatronen en stellen vast dat het behoud van de voorgetrainde AR-gewichtsverdelingen cruciaal is voor een effectieve AR-naar-dLM-conversie. Daarom introduceren we een continu voortrainingsschema met een bloksgewijs aandachtspatroon, dat causaal blijft tussen blokken maar bidirectioneel modelleren binnen elk blok mogelijk maakt. We stellen vast dat deze aanpak de gewichtsverdelingen van voorgetrainde AR-modellen beter kan behouden dan volledig bidirectioneel modelleren, naast het bekende voordeel van het mogelijk maken van KV-caching, en leidt tot een win-winsituatie in nauwkeurigheid en efficiëntie. Ten tweede, om de kloof tussen training en test in maskertokenverdelingen (uniform vs. sterk links-naar-rechts) te verkleinen, stellen we een positie-afhankelijke tokenmaskeringsstrategie voor die tijdens de training hogere maskeringskansen toekent aan latere tokens om het testgedrag beter na te bootsen. Met behulp van dit framework voeren we uitgebreide studies uit naar de aandachtspatronen, trainingsdynamiek en andere ontwerpkeuzes van dLM's, wat bruikbare inzichten biedt in schaalbare AR-naar-dLM-conversie. Deze studies leiden tot de Efficient-DLM-familie, die state-of-the-art AR-modellen en dLM's overtreft; zo behaalt onze Efficient-DLM 8B bijvoorbeeld respectievelijk +5,4%/+2,7% hogere nauwkeurigheid met een 4,5x/2,7x hogere doorvoersnelheid vergeleken met Dream 7B en Qwen3 4B.
English
Diffusion language models (dLMs) have emerged as a promising paradigm that enables parallel, non-autoregressive generation, but their learning efficiency lags behind that of autoregressive (AR) language models when trained from scratch. To this end, we study AR-to-dLM conversion to transform pretrained AR models into efficient dLMs that excel in speed while preserving AR models' task accuracy. We achieve this by identifying limitations in the attention patterns and objectives of existing AR-to-dLM methods and then proposing principles and methodologies for more effective AR-to-dLM conversion. Specifically, we first systematically compare different attention patterns and find that maintaining pretrained AR weight distributions is critical for effective AR-to-dLM conversion. As such, we introduce a continuous pretraining scheme with a block-wise attention pattern, which remains causal across blocks while enabling bidirectional modeling within each block. We find that this approach can better preserve pretrained AR models' weight distributions than fully bidirectional modeling, in addition to its known benefit of enabling KV caching, and leads to a win-win in accuracy and efficiency. Second, to mitigate the training-test gap in mask token distributions (uniform vs. highly left-to-right), we propose a position-dependent token masking strategy that assigns higher masking probabilities to later tokens during training to better mimic test-time behavior. Leveraging this framework, we conduct extensive studies of dLMs' attention patterns, training dynamics, and other design choices, providing actionable insights into scalable AR-to-dLM conversion. These studies lead to the Efficient-DLM family, which outperforms state-of-the-art AR models and dLMs, e.g., our Efficient-DLM 8B achieves +5.4%/+2.7% higher accuracy with 4.5x/2.7x higher throughput compared to Dream 7B and Qwen3 4B, respectively.
PDF61December 18, 2025