ChatPaper.aiChatPaper

Efficient-DLM: Von autoregressiven zu Diffusions-Sprachmodellen und darüber hinaus in puncto Geschwindigkeit

Efficient-DLM: From Autoregressive to Diffusion Language Models, and Beyond in Speed

December 16, 2025
papers.authors: Yonggan Fu, Lexington Whalen, Zhifan Ye, Xin Dong, Shizhe Diao, Jingyu Liu, Chengyue Wu, Hao Zhang, Enze Xie, Song Han, Maksim Khadkevich, Jan Kautz, Yingyan Celine Lin, Pavlo Molchanov
cs.AI

papers.abstract

Diffusions-Sprachmodelle (dLMs) haben sich als vielversprechendes Paradigma etabliert, das parallele, nicht-autoregressive Generierung ermöglicht, doch ihre Lerneffizienz bleibt hinter der von autoregressiven (AR) Sprachmodellen zurück, wenn sie von Grund auf trainiert werden. Zu diesem Zweck untersuchen wir die AR-zu-dLM-Konvertierung, um vortrainierte AR-Modelle in effiziente dLMs umzuwandeln, die in puncto Geschwindigkeit glänzen und gleichzeitig die Aufgabengenauigkeit der AR-Modelle bewahren. Dies erreichen wir, indem wir Limitierungen in den Aufmerksamkeitsmustern und Zielsetzungen bestehender AR-zu-dLM-Methoden identifizieren und daraufhin Prinzipien und Methoden für eine effektivere AR-zu-dLM-Konvertierung vorschlagen. Konkret vergleichen wir zunächst systematisch verschiedene Aufmerksamkeitsmuster und stellen fest, dass die Beibehaltung der vortrainierten AR-Gewichtsverteilungen entscheidend für eine effektive Konvertierung ist. Daher führen wir ein kontinuierliches Vortrainingsschema mit einem blockweisen Aufmerksamkeitsmuster ein, das über Blöcke hinweg kausal bleibt, während es innerhalb jedes Blocks bidirektionale Modellierung ermöglicht. Wir stellen fest, dass dieser Ansatz die Gewichtsverteilungen vortrainierter AR-Modelle besser bewahren kann als vollständig bidirektionale Modellierung – zusätzlich zu seinem bekannten Vorteil der Ermöglichung von KV-Caching – und zu einer Win-Win-Situation in Genauigkeit und Effizienz führt. Zweitens schlagen wir, um die Trainings-Test-Lücke in den Maskierungstoken-Verteilungen (gleichmäßig vs. stark links-nach-rechts) zu verringern, eine positionsabhängige Token-Maskierungsstrategie vor, die späteren Token während des Trainings höhere Maskierungswahrscheinlichkeiten zuweist, um das Verhalten zur Testzeit besser nachzubilden. Gestützt auf diesen Rahmen führen wir umfangreiche Studien zu Aufmerksamkeitsmustern, Trainingsdynamiken und anderen Designentscheidungen von dLMs durch, die umsetzbare Einblicke in skalierbare AR-zu-dLM-Konvertierung bieten. Diese Studien führen zur Efficient-DLM-Familie, die state-of-the-art AR-Modelle und dLMs übertrifft; z.B. erzielt unser Efficient-DLM 8B eine um +5,4 %/+2,7 % höhere Genauigkeit bei einem 4,5x/2,7x höheren Durchsatz im Vergleich zu Dream 7B bzw. Qwen3 4B.
English
Diffusion language models (dLMs) have emerged as a promising paradigm that enables parallel, non-autoregressive generation, but their learning efficiency lags behind that of autoregressive (AR) language models when trained from scratch. To this end, we study AR-to-dLM conversion to transform pretrained AR models into efficient dLMs that excel in speed while preserving AR models' task accuracy. We achieve this by identifying limitations in the attention patterns and objectives of existing AR-to-dLM methods and then proposing principles and methodologies for more effective AR-to-dLM conversion. Specifically, we first systematically compare different attention patterns and find that maintaining pretrained AR weight distributions is critical for effective AR-to-dLM conversion. As such, we introduce a continuous pretraining scheme with a block-wise attention pattern, which remains causal across blocks while enabling bidirectional modeling within each block. We find that this approach can better preserve pretrained AR models' weight distributions than fully bidirectional modeling, in addition to its known benefit of enabling KV caching, and leads to a win-win in accuracy and efficiency. Second, to mitigate the training-test gap in mask token distributions (uniform vs. highly left-to-right), we propose a position-dependent token masking strategy that assigns higher masking probabilities to later tokens during training to better mimic test-time behavior. Leveraging this framework, we conduct extensive studies of dLMs' attention patterns, training dynamics, and other design choices, providing actionable insights into scalable AR-to-dLM conversion. These studies lead to the Efficient-DLM family, which outperforms state-of-the-art AR models and dLMs, e.g., our Efficient-DLM 8B achieves +5.4%/+2.7% higher accuracy with 4.5x/2.7x higher throughput compared to Dream 7B and Qwen3 4B, respectively.
PDF61December 18, 2025