拡散二重性
The Diffusion Duality
June 12, 2025
著者: Subham Sekhar Sahoo, Justin Deschenaux, Aaron Gokaslan, Guanghan Wang, Justin Chiu, Volodymyr Kuleshov
cs.AI
要旨
均一状態離散拡散モデルは、その自己修正能力により高速なテキスト生成が期待される。しかし、通常は自己回帰モデルやマスク拡散モデルに性能で劣る。本研究では、この性能差を縮めるために重要な洞察を活用する:均一状態拡散過程は、基礎となるガウス拡散から自然に生じる。我々の手法「Duo」は、ガウス拡散から強力な技術を転用し、学習とサンプリングの両方を改善する。まず、ガウス過程に基づくカリキュラム学習戦略を導入し、分散を減らすことで学習速度を倍増させる。カリキュラム学習で訓練されたモデルは、7つのベンチマークのうち3つでゼロショットパープレキシティにおいて自己回帰モデルを上回る。次に、連続設定から離散設定へ一貫性蒸留を適応させた「離散一貫性蒸留」を提案する。このアルゴリズムにより、拡散言語モデルにおける数ステップ生成が可能となり、サンプリング速度を2桁加速する。コードとモデルチェックポイントはプロジェクトページ(http://s-sahoo.github.io/duo)で公開している。
English
Uniform-state discrete diffusion models hold the promise of fast text
generation due to their inherent ability to self-correct. However, they are
typically outperformed by autoregressive models and masked diffusion models. In
this work, we narrow this performance gap by leveraging a key insight:
Uniform-state diffusion processes naturally emerge from an underlying Gaussian
diffusion. Our method, Duo, transfers powerful techniques from Gaussian
diffusion to improve both training and sampling. First, we introduce a
curriculum learning strategy guided by the Gaussian process, doubling training
speed by reducing variance. Models trained with curriculum learning surpass
autoregressive models in zero-shot perplexity on 3 of 7 benchmarks. Second, we
present Discrete Consistency Distillation, which adapts consistency
distillation from the continuous to the discrete setting. This algorithm
unlocks few-step generation in diffusion language models by accelerating
sampling by two orders of magnitude. We provide the code and model checkpoints
on the project page: http://s-sahoo.github.io/duo