ChatPaper.aiChatPaper

Efficient-DLM:自己回帰型から拡散言語モデルへ、そして速度を超えて

Efficient-DLM: From Autoregressive to Diffusion Language Models, and Beyond in Speed

December 16, 2025
著者: Yonggan Fu, Lexington Whalen, Zhifan Ye, Xin Dong, Shizhe Diao, Jingyu Liu, Chengyue Wu, Hao Zhang, Enze Xie, Song Han, Maksim Khadkevich, Jan Kautz, Yingyan Celine Lin, Pavlo Molchanov
cs.AI

要旨

拡散言語モデル(dLM)は並列的な非自己回帰的生成を可能とする有望なパラダイムとして登場したが、スクラッチから学習する場合、その学習効率は自己回帰(AR)言語モデルに遅れを取っている。この問題に対処するため、我々は事前学習済みARモデルを、ARモデルのタスク精度を維持しつつ高速性に優れた効率的なdLMへ変換するAR-to-dLM変換を研究する。既存のAR-to-dLM手法の注意パターンと目的関数における限界を特定し、より効果的なAR-to-dLM変換のための原理と方法論を提案することでこれを実現する。具体的には、まず様々な注意パターンを体系的に比較し、事前学習済みARの重み分布を維持することが効果的なAR-to-dLM変換に重要であることを明らかにする。そこで我々は、ブロック単位の注意パターンを用いた継続的事前学習スキームを導入する。これはブロック間では因果性を保ちつつ、各ブロック内では双方向モデリングを可能とする。この手法は、KVキャッシングを可能とする既知の利点に加えて、完全双方向モデリングよりも事前学習済みARモデルの重み分布をより良く保持でき、精度と効率の両立をもたらすことを見出した。第二に、マスクトークン分布(一様分布と強い左から右への偏り)の訓練-テスト間のギャップを緩和するため、訓練時に後続のトークンに高いマスキング確率を割り当て、テスト時の振る舞いをより良く模倣する位置依存トークンマスキング戦略を提案する。このフレームワークを活用し、dLMの注意パターン、訓練動態、その他の設計選択に関する広範な研究を行い、スケーラブルなAR-to-dLM変換への実践的な知見を提供する。これらの研究から生まれたEfficient-DLMファミリーは、最新のARモデルおよびdLMを凌駕する。例えば、我々のEfficient-DLM 8Bは、Dream 7BおよびQwen3 4Bと比較して、それぞれ4.5倍/2.7倍高いスループットで、+5.4%/+2.7%高い精度を達成する。
English
Diffusion language models (dLMs) have emerged as a promising paradigm that enables parallel, non-autoregressive generation, but their learning efficiency lags behind that of autoregressive (AR) language models when trained from scratch. To this end, we study AR-to-dLM conversion to transform pretrained AR models into efficient dLMs that excel in speed while preserving AR models' task accuracy. We achieve this by identifying limitations in the attention patterns and objectives of existing AR-to-dLM methods and then proposing principles and methodologies for more effective AR-to-dLM conversion. Specifically, we first systematically compare different attention patterns and find that maintaining pretrained AR weight distributions is critical for effective AR-to-dLM conversion. As such, we introduce a continuous pretraining scheme with a block-wise attention pattern, which remains causal across blocks while enabling bidirectional modeling within each block. We find that this approach can better preserve pretrained AR models' weight distributions than fully bidirectional modeling, in addition to its known benefit of enabling KV caching, and leads to a win-win in accuracy and efficiency. Second, to mitigate the training-test gap in mask token distributions (uniform vs. highly left-to-right), we propose a position-dependent token masking strategy that assigns higher masking probabilities to later tokens during training to better mimic test-time behavior. Leveraging this framework, we conduct extensive studies of dLMs' attention patterns, training dynamics, and other design choices, providing actionable insights into scalable AR-to-dLM conversion. These studies lead to the Efficient-DLM family, which outperforms state-of-the-art AR models and dLMs, e.g., our Efficient-DLM 8B achieves +5.4%/+2.7% higher accuracy with 4.5x/2.7x higher throughput compared to Dream 7B and Qwen3 4B, respectively.
PDF61December 18, 2025