Next-TokenからNext-Blockへ:拡散LLMのための原理に基づく適応パス
From Next-Token to Next-Block: A Principled Adaptation Path for Diffusion LLMs
December 7, 2025
著者: Yuchuan Tian, Yuchen Liang, Jiacheng Sun, Shuo Zhang, Guangwen Yang, Yingte Shu, Sibo Fang, Tianyu Guo, Kai Han, Chao Xu, Hanting Chen, Xinghao Chen, Yunhe Wang
cs.AI
要旨
大規模言語モデル(LLM)は生成タスクに優れるが、主流の自己回帰(AR)復号化は本質的に逐次的であり、スループットのボトルネックを生み出す。拡散言語モデル(DLM)、特にブロック単位の変種は、並列生成とブロック内双方向推論を可能にするが、大規模なDLMをスクラッチから訓練するにはコストがかかり、成熟したARチェックポイントの知識を無駄にしてしまう。従来の「適応」手法は、ロジットを変更したり注意マスクをランダムに全系列拡散用に拡張したり、あるいは単にARの重みをブロック拡散レシピに移植するものであり、ARの因果性とブロック単位双方向性の根本的な不一致に対処できていなかった。本研究では、ARをブロックサイズ1のブロック拡散と見なすことで、適応をARからブロック拡散へのパラダイム内経路として再定義する。具体的には、以下の適応経路を設計する:文脈因果的注意マスク(文脈内では因果的、活性ブロック内でのみ双方向)、効率的な並列適応手順、データ利用率を最大化し事前学習知識を保持する補助AR損失、生成ブロックサイズの漸増。このレシピはマスク付きブロック拡散とシームレスに統合され、訓練と推論の一貫性を維持する。これらの構成要素に基づいて構築されたNBDiff-7B(Base版とInstruct版)は、長文脈モデリングと推論能力を継承し、7BクラスのDLMの中で最先端の性能を達成し、一般知識、数学、コードのベンチマークにおいて強力なベースラインを上回る大幅な改善を示した。これらの結果は、原理に基づいたARからブロック拡散への適応が、DLMをスクラッチから訓練するための効果的かつ計算効率の高い代替手段であることを実証している。コード:https://github.com/YuchuanTian/NBDiff。
English
Large language models (LLMs) excel at generation but dominant autoregressive (AR) decoding is inherently sequential, creating a throughput bottleneck. Diffusion Language Models (DLMs)--especially block-wise variants--enable parallel generation and intra-block bidirectional reasoning, yet training large DLMs from scratch is costly and wastes the knowledge in mature AR checkpoints. Prior "adaptation" attempts either modify logits or randomly grow attention masks to full-sequence diffusion, or simply transplant AR weights into a block-diffusion recipe, leaving a fundamental mismatch between AR causality and block-wise bidirectionality unaddressed. We reframe adaptation as a intra-paradigm path from AR to Block-Diffusion by viewing AR as Block-Diffusion with blocksize=1. Concretely, we design the pathway of adaptation as follows: we use a context-causal attention mask (causal in context, bidirectional only within the active block), an efficient parallel adaptation procedure, an auxiliary AR loss to maximize data utilization and retain pretrained knowledge, and gradual increment of the generation block size. The recipe integrates cleanly with masked block-diffusion and maintains train-inference consistency. Built on these components, NBDiff-7B (Base and Instruct) could inherit the long-context modeling and reasoning capabilities, and achieve state-of-the-art performance among the 7B-class DLMs, delivering strong gains on general-knowledge, math, and code benchmarks over strong baselines. These results demonstrate that principled AR-to-block-diffusion adaptation is an effective and compute-efficient alternative to training DLMs from scratch. Codes: https://github.com/YuchuanTian/NBDiff.