ChatPaper.aiChatPaper

De Dualiteit van Diffusie

The Diffusion Duality

June 12, 2025
Auteurs: Subham Sekhar Sahoo, Justin Deschenaux, Aaron Gokaslan, Guanghan Wang, Justin Chiu, Volodymyr Kuleshov
cs.AI

Samenvatting

Uniform-state discrete diffusiemodellen beloven snelle tekstgeneratie dankzij hun inherente vermogen tot zelfcorrectie. Ze worden echter doorgaans overtroffen door autoregressieve modellen en gemaskeerde diffusiemodellen. In dit werk verkleinen we deze prestatiekloof door gebruik te maken van een belangrijk inzicht: uniform-state diffusieprocessen ontstaan van nature uit een onderliggende Gaussische diffusie. Onze methode, Duo, maakt gebruik van krachtige technieken uit Gaussische diffusie om zowel de training als de sampling te verbeteren. Ten eerste introduceren we een curriculumleerstrategie die wordt geleid door het Gaussische proces, waardoor de trainingssnelheid wordt verdubbeld door de variantie te verminderen. Modellen die met curriculumleren zijn getraind, overtreffen autoregressieve modellen in zero-shot perplexiteit op 3 van de 7 benchmarks. Ten tweede presenteren we Discrete Consistency Distillation, dat consistentiedistillatie aanpast van het continue naar het discrete domein. Dit algoritme maakt generatie in weinig stappen mogelijk in diffusietaalmodellen door de sampling met twee ordes van grootte te versnellen. We bieden de code en modelcheckpoints aan op de projectpagina: http://s-sahoo.github.io/duo.
English
Uniform-state discrete diffusion models hold the promise of fast text generation due to their inherent ability to self-correct. However, they are typically outperformed by autoregressive models and masked diffusion models. In this work, we narrow this performance gap by leveraging a key insight: Uniform-state diffusion processes naturally emerge from an underlying Gaussian diffusion. Our method, Duo, transfers powerful techniques from Gaussian diffusion to improve both training and sampling. First, we introduce a curriculum learning strategy guided by the Gaussian process, doubling training speed by reducing variance. Models trained with curriculum learning surpass autoregressive models in zero-shot perplexity on 3 of 7 benchmarks. Second, we present Discrete Consistency Distillation, which adapts consistency distillation from the continuous to the discrete setting. This algorithm unlocks few-step generation in diffusion language models by accelerating sampling by two orders of magnitude. We provide the code and model checkpoints on the project page: http://s-sahoo.github.io/duo
PDF374June 16, 2025