Die Diffusionsdualität
The Diffusion Duality
June 12, 2025
Autoren: Subham Sekhar Sahoo, Justin Deschenaux, Aaron Gokaslan, Guanghan Wang, Justin Chiu, Volodymyr Kuleshov
cs.AI
Zusammenfassung
Uniform-State-Diskrete-Diffusionsmodelle versprechen aufgrund ihrer inhärenten Fähigkeit zur Selbstkorrektur eine schnelle Texterzeugung. Allerdings werden sie typischerweise von autoregressiven Modellen und maskierten Diffusionsmodellen übertroffen. In dieser Arbeit verringern wir diese Leistungslücke, indem wir eine zentrale Erkenntnis nutzen: Uniform-State-Diffusionsprozesse ergeben sich natürlich aus einer zugrunde liegenden Gaußschen Diffusion. Unsere Methode, Duo, überträgt leistungsstarke Techniken aus der Gaußschen Diffusion, um sowohl das Training als auch die Stichprobenentnahme zu verbessern. Zunächst führen wir eine Curriculum-Learning-Strategie ein, die durch den Gaußschen Prozess geleitet wird und die Trainingsgeschwindigkeit durch die Reduzierung der Varianz verdoppelt. Modelle, die mit Curriculum-Learning trainiert wurden, übertreffen autoregressive Modelle in der Zero-Shot-Perplexität auf 3 von 7 Benchmarks. Zweitens präsentieren wir Discrete Consistency Distillation, das Consistency Distillation vom kontinuierlichen auf den diskreten Bereich überträgt. Dieser Algorithmus ermöglicht die Erzeugung in wenigen Schritten in Diffusionssprachmodellen, indem die Stichprobenentnahme um zwei Größenordnungen beschleunigt wird. Wir stellen den Code und die Modell-Checkpoints auf der Projektseite zur Verfügung: http://s-sahoo.github.io/duo.
English
Uniform-state discrete diffusion models hold the promise of fast text
generation due to their inherent ability to self-correct. However, they are
typically outperformed by autoregressive models and masked diffusion models. In
this work, we narrow this performance gap by leveraging a key insight:
Uniform-state diffusion processes naturally emerge from an underlying Gaussian
diffusion. Our method, Duo, transfers powerful techniques from Gaussian
diffusion to improve both training and sampling. First, we introduce a
curriculum learning strategy guided by the Gaussian process, doubling training
speed by reducing variance. Models trained with curriculum learning surpass
autoregressive models in zero-shot perplexity on 3 of 7 benchmarks. Second, we
present Discrete Consistency Distillation, which adapts consistency
distillation from the continuous to the discrete setting. This algorithm
unlocks few-step generation in diffusion language models by accelerating
sampling by two orders of magnitude. We provide the code and model checkpoints
on the project page: http://s-sahoo.github.io/duo