ChatPaper.aiChatPaper

La Dualité de Diffusion

The Diffusion Duality

June 12, 2025
Auteurs: Subham Sekhar Sahoo, Justin Deschenaux, Aaron Gokaslan, Guanghan Wang, Justin Chiu, Volodymyr Kuleshov
cs.AI

Résumé

Les modèles de diffusion discrète à état uniforme promettent une génération rapide de texte grâce à leur capacité intrinsèque à s'autocorriger. Cependant, ils sont généralement surpassés par les modèles autorégressifs et les modèles de diffusion masquée. Dans ce travail, nous réduisons cet écart de performance en exploitant une idée clé : les processus de diffusion à état uniforme émergent naturellement d'une diffusion gaussienne sous-jacente. Notre méthode, Duo, transfère des techniques puissantes issues de la diffusion gaussienne pour améliorer à la fois l'entraînement et l'échantillonnage. Premièrement, nous introduisons une stratégie d'apprentissage curriculaire guidée par le processus gaussien, doublant la vitesse d'entraînement en réduisant la variance. Les modèles entraînés avec cette approche surpassent les modèles autorégressifs en perplexité zero-shot sur 3 des 7 benchmarks. Deuxièmement, nous présentons la Distillation de Consistance Discrète, qui adapte la distillation de consistance du cadre continu au cadre discret. Cet algorithme permet une génération en quelques étapes dans les modèles de diffusion de langage en accélérant l'échantillonnage de deux ordres de grandeur. Nous mettons à disposition le code et les points de contrôle des modèles sur la page du projet : http://s-sahoo.github.io/duo
English
Uniform-state discrete diffusion models hold the promise of fast text generation due to their inherent ability to self-correct. However, they are typically outperformed by autoregressive models and masked diffusion models. In this work, we narrow this performance gap by leveraging a key insight: Uniform-state diffusion processes naturally emerge from an underlying Gaussian diffusion. Our method, Duo, transfers powerful techniques from Gaussian diffusion to improve both training and sampling. First, we introduce a curriculum learning strategy guided by the Gaussian process, doubling training speed by reducing variance. Models trained with curriculum learning surpass autoregressive models in zero-shot perplexity on 3 of 7 benchmarks. Second, we present Discrete Consistency Distillation, which adapts consistency distillation from the continuous to the discrete setting. This algorithm unlocks few-step generation in diffusion language models by accelerating sampling by two orders of magnitude. We provide the code and model checkpoints on the project page: http://s-sahoo.github.io/duo
PDF333June 16, 2025