ChatPaper.aiChatPaper

Efficient-DLM : Des modèles de langage autorégressifs aux modèles de diffusion, et au-delà en termes de vitesse

Efficient-DLM: From Autoregressive to Diffusion Language Models, and Beyond in Speed

December 16, 2025
papers.authors: Yonggan Fu, Lexington Whalen, Zhifan Ye, Xin Dong, Shizhe Diao, Jingyu Liu, Chengyue Wu, Hao Zhang, Enze Xie, Song Han, Maksim Khadkevich, Jan Kautz, Yingyan Celine Lin, Pavlo Molchanov
cs.AI

papers.abstract

Les modèles de langage par diffusion (dLM) sont apparus comme un paradigme prometteur permettant une génération parallèle non autorégressive, mais leur efficacité d'apprentissage reste inférieure à celle des modèles de langage autorégressifs (AR) lorsqu'ils sont entraînés à partir de zéro. Pour remédier à cela, nous étudions la conversion AR-vers-dLM afin de transformer des modèles AR pré-entraînés en dLM efficaces, alliant rapidité et préservation de la précision des modèles AR sur les tâches. Nous y parvenons en identifiant les limitations des schémas d'attention et des objectifs des méthodes existantes de conversion AR-vers-dLM, puis en proposant des principes et méthodologies pour une conversion plus efficace. Plus précisément, nous comparons d'abord systématiquement différents schémas d'attention et constatons que le maintien des distributions de poids pré-entraînés des modèles AR est crucial pour une conversion réussie. Ainsi, nous introduisons un schéma de pré-entraînement continu avec un motif d'attention par blocs, qui reste causal entre les blocs tout en permettant une modélisation bidirectionnelle au sein de chaque bloc. Cette approche préserve mieux les distributions de poids des modèles AR pré-entraînés qu'une modélisation entièrement bidirectionnelle, en plus de son avantage connu de permettre la mise en cache KV, et conduit à un gain à la fois en précision et en efficacité. Deuxièmement, pour réduire l'écart entre l'entraînement et les tests concernant la distribution des tokens masqués (uniforme vs. fortement gauche-droite), nous proposons une stratégie de masquage des tokens dépendante de la position, qui attribue des probabilités de masquage plus élevées aux tokens ultérieurs lors de l'entraînement pour mieux imiter le comportement en phase de test. En nous appuyant sur ce cadre, nous menons des études approfondies sur les schémas d'attention des dLM, leur dynamique d'entraînement et d'autres choix de conception, fournissant des insights actionnables pour une conversion AR-vers-dLM scalable. Ces études donnent naissance à la famille Efficient-DLM, qui surpasse les modèles AR et dLM de l'état de l'art. Par exemple, notre Efficient-DLM 8B atteint une précision supérieure de +5,4% / +2,7% avec un débit 4,5x / 2,7x plus élevé comparé respectivement à Dream 7B et Qwen3 4B.
English
Diffusion language models (dLMs) have emerged as a promising paradigm that enables parallel, non-autoregressive generation, but their learning efficiency lags behind that of autoregressive (AR) language models when trained from scratch. To this end, we study AR-to-dLM conversion to transform pretrained AR models into efficient dLMs that excel in speed while preserving AR models' task accuracy. We achieve this by identifying limitations in the attention patterns and objectives of existing AR-to-dLM methods and then proposing principles and methodologies for more effective AR-to-dLM conversion. Specifically, we first systematically compare different attention patterns and find that maintaining pretrained AR weight distributions is critical for effective AR-to-dLM conversion. As such, we introduce a continuous pretraining scheme with a block-wise attention pattern, which remains causal across blocks while enabling bidirectional modeling within each block. We find that this approach can better preserve pretrained AR models' weight distributions than fully bidirectional modeling, in addition to its known benefit of enabling KV caching, and leads to a win-win in accuracy and efficiency. Second, to mitigate the training-test gap in mask token distributions (uniform vs. highly left-to-right), we propose a position-dependent token masking strategy that assigns higher masking probabilities to later tokens during training to better mimic test-time behavior. Leveraging this framework, we conduct extensive studies of dLMs' attention patterns, training dynamics, and other design choices, providing actionable insights into scalable AR-to-dLM conversion. These studies lead to the Efficient-DLM family, which outperforms state-of-the-art AR models and dLMs, e.g., our Efficient-DLM 8B achieves +5.4%/+2.7% higher accuracy with 4.5x/2.7x higher throughput compared to Dream 7B and Qwen3 4B, respectively.
PDF61December 18, 2025