離散拡散モデルにおける理解と生成のバランス
Balancing Understanding and Generation in Discrete Diffusion Models
February 1, 2026
著者: Yue Liu, Yuzhong Zhao, Zheyong Xie, Qixiang Ye, Jianbin Jiao, Yao Hu, Shaosheng Cao, Yunfan Liu
cs.AI
要旨
離散生成モデリングにおいて、2つの主要なパラダイムは異なる能力を示す:Masked Diffusion Language Model(MDLM)は意味理解とゼロショット汎化に優れる一方、Uniform-noise Diffusion Language Model(UDLM)は少数ステップ生成の品質で強みを発揮するが、両次元で均衡した性能を達成するものはない。この問題を解決するため、我々は定常ノイズカーネルによって両パラダイムを橋渡しするXDLMを提案する。XDLMの主な貢献は二つ:(1)MDLMとUDLMを原理的に統一する理論的枠組みを提供し、各パラダイムを特殊ケースとして包含すること、(2)事後確率の代数的簡略化によりメモリボトルネックを緩和することである。実験により、XDLMが理解能力と生成品質のパレートフロンティアを推進することが実証された。定量的には、XDLMはゼロショットテキストベンチマークでUDLMを5.4ポイント上回り、少数ステップ画像生成ではMDLM(FID 80.8)を凌駕する(FID 54.1)。80億パラメータ大規模言語モデルの調整にスケーリングした場合、XDLMは32ステップのみでMBPP 15.0を達成し、ベースライン性能を実質2倍に向上させる。最後に、訓練動態の分析はXDLMの長期的スケーリングにおける優れた可能性を明らかにする。コードはhttps://github.com/MzeroMiko/XDLM で公開されている。
English
In discrete generative modeling, two dominant paradigms demonstrate divergent capabilities: Masked Diffusion Language Models (MDLM) excel at semantic understanding and zero-shot generalization, whereas Uniform-noise Diffusion Language Models (UDLM) achieve strong few-step generation quality, yet neither attains balanced performance across both dimensions. To address this, we propose XDLM, which bridges the two paradigms via a stationary noise kernel. XDLM offers two key contributions: (1) it provides a principled theoretical unification of MDLM and UDLM, recovering each paradigm as a special case; and (2) an alleviated memory bottleneck enabled by an algebraic simplification of the posterior probabilities. Experiments demonstrate that XDLM advances the Pareto frontier between understanding capability and generation quality. Quantitatively, XDLM surpasses UDLM by 5.4 points on zero-shot text benchmarks and outperforms MDLM in few-step image generation (FID 54.1 vs. 80.8). When scaled to tune an 8B-parameter large language model, XDLM achieves 15.0 MBPP in just 32 steps, effectively doubling the baseline performance. Finally, analysis of training dynamics reveals XDLM's superior potential for long-term scaling. Code is available at https://github.com/MzeroMiko/XDLM