Efficient-DLM: Dalle Reti Autoregressive ai Modelli Linguistici a Diffusione, e Oltre in Termini di Velocità
Efficient-DLM: From Autoregressive to Diffusion Language Models, and Beyond in Speed
December 16, 2025
Autori: Yonggan Fu, Lexington Whalen, Zhifan Ye, Xin Dong, Shizhe Diao, Jingyu Liu, Chengyue Wu, Hao Zhang, Enze Xie, Song Han, Maksim Khadkevich, Jan Kautz, Yingyan Celine Lin, Pavlo Molchanov
cs.AI
Abstract
I modelli linguistici di diffusione (dLM) sono emersi come un paradigma promettente che consente una generazione parallela e non autoregressiva, ma la loro efficienza di apprendimento rimane inferiore a quella dei modelli linguistici autoregressivi (AR) quando addestrati da zero. A tal fine, studiamo la conversione da AR a dLM per trasformare modelli AR preaddestrati in dLM efficienti che eccellono in velocità preservando l'accuratezza dei modelli AR nei compiti. Raggiungiamo questo obiettivo identificando le limitazioni nei pattern di attenzione e negli obiettivi dei metodi di conversione AR-to-dLM esistenti, per poi proporre principi e metodologie per una conversione più efficace. Nello specifico, confrontiamo prima sistematicamente diversi pattern di attenzione e scopriamo che mantenere le distribuzioni di peso AR preaddestrate è fondamentale per una conversione efficace. Pertanto, introduciamo uno schema di preaddestramento continuo con un pattern di attenzione a blocchi, che rimane causale tra i blocchi consentendo al contempo una modellazione bidirezionale all'interno di ogni blocco. Troviamo che questo approccio può preservare meglio le distribuzioni di peso dei modelli AR preaddestrati rispetto alla modellazione completamente bidirezionale, oltre al suo noto vantaggio di abilitare la KV cache, e porta a un vantaggio reciproco in accuratezza ed efficienza. In secondo luogo, per mitigare il divario tra addestramento e test nelle distribuzioni dei token mascherati (uniforme vs. fortemente left-to-right), proponiamo una strategia di mascheramento dei token dipendente dalla posizione che assegna probabilità di mascheramento più elevate ai token successivi durante l'addestramento per imitare meglio il comportamento al momento del test. Sfruttando questo framework, conduciamo studi approfonditi sui pattern di attenzione, le dinamiche di addestramento e altre scelte progettuali dei dLM, fornendo spunti pratici per una conversione AR-to-dLM scalabile. Questi studi portano alla famiglia Efficient-DLM, che supera i modelli AR e dLM all'avanguardia; ad esempio, il nostro Efficient-DLM 8B raggiunge un'accuratezza superiore del +5,4%/+2,7% con un throughput rispettivamente 4,5x/2,7x più alto rispetto a Dream 7B e Qwen3 4B.
English
Diffusion language models (dLMs) have emerged as a promising paradigm that enables parallel, non-autoregressive generation, but their learning efficiency lags behind that of autoregressive (AR) language models when trained from scratch. To this end, we study AR-to-dLM conversion to transform pretrained AR models into efficient dLMs that excel in speed while preserving AR models' task accuracy. We achieve this by identifying limitations in the attention patterns and objectives of existing AR-to-dLM methods and then proposing principles and methodologies for more effective AR-to-dLM conversion. Specifically, we first systematically compare different attention patterns and find that maintaining pretrained AR weight distributions is critical for effective AR-to-dLM conversion. As such, we introduce a continuous pretraining scheme with a block-wise attention pattern, which remains causal across blocks while enabling bidirectional modeling within each block. We find that this approach can better preserve pretrained AR models' weight distributions than fully bidirectional modeling, in addition to its known benefit of enabling KV caching, and leads to a win-win in accuracy and efficiency. Second, to mitigate the training-test gap in mask token distributions (uniform vs. highly left-to-right), we propose a position-dependent token masking strategy that assigns higher masking probabilities to later tokens during training to better mimic test-time behavior. Leveraging this framework, we conduct extensive studies of dLMs' attention patterns, training dynamics, and other design choices, providing actionable insights into scalable AR-to-dLM conversion. These studies lead to the Efficient-DLM family, which outperforms state-of-the-art AR models and dLMs, e.g., our Efficient-DLM 8B achieves +5.4%/+2.7% higher accuracy with 4.5x/2.7x higher throughput compared to Dream 7B and Qwen3 4B, respectively.