La Dualità della Diffusione
The Diffusion Duality
June 12, 2025
Autori: Subham Sekhar Sahoo, Justin Deschenaux, Aaron Gokaslan, Guanghan Wang, Justin Chiu, Volodymyr Kuleshov
cs.AI
Abstract
I modelli di diffusione discreta a stato uniforme promettono una generazione rapida di testo grazie alla loro intrinseca capacità di autocorrezione. Tuttavia, sono generalmente superati dai modelli autoregressivi e dai modelli di diffusione mascherata. In questo lavoro, riduciamo questo divario di prestazione sfruttando un'idea chiave: i processi di diffusione a stato uniforme emergono naturalmente da una diffusione gaussiana sottostante. Il nostro metodo, Duo, trasferisce tecniche avanzate dalla diffusione gaussiana per migliorare sia l'addestramento che il campionamento. In primo luogo, introduciamo una strategia di apprendimento curriculare guidata dal processo gaussiano, raddoppiando la velocità di addestramento riducendo la varianza. I modelli addestrati con l'apprendimento curriculare superano i modelli autoregressivi in termini di perplessità zero-shot su 3 dei 7 benchmark. In secondo luogo, presentiamo la Distillazione di Consistenza Discreta, che adatta la distillazione di consistenza dal contesto continuo a quello discreto. Questo algoritmo abilita la generazione in pochi passi nei modelli di diffusione per il linguaggio, accelerando il campionamento di due ordini di grandezza. Forniamo il codice e i checkpoint del modello sulla pagina del progetto: http://s-sahoo.github.io/duo
English
Uniform-state discrete diffusion models hold the promise of fast text
generation due to their inherent ability to self-correct. However, they are
typically outperformed by autoregressive models and masked diffusion models. In
this work, we narrow this performance gap by leveraging a key insight:
Uniform-state diffusion processes naturally emerge from an underlying Gaussian
diffusion. Our method, Duo, transfers powerful techniques from Gaussian
diffusion to improve both training and sampling. First, we introduce a
curriculum learning strategy guided by the Gaussian process, doubling training
speed by reducing variance. Models trained with curriculum learning surpass
autoregressive models in zero-shot perplexity on 3 of 7 benchmarks. Second, we
present Discrete Consistency Distillation, which adapts consistency
distillation from the continuous to the discrete setting. This algorithm
unlocks few-step generation in diffusion language models by accelerating
sampling by two orders of magnitude. We provide the code and model checkpoints
on the project page: http://s-sahoo.github.io/duo