La Dualidad de Difusión
The Diffusion Duality
June 12, 2025
Autores: Subham Sekhar Sahoo, Justin Deschenaux, Aaron Gokaslan, Guanghan Wang, Justin Chiu, Volodymyr Kuleshov
cs.AI
Resumen
Los modelos de difusión discreta de estado uniforme prometen una generación rápida de texto debido a su capacidad inherente para autocorregirse. Sin embargo, suelen ser superados por los modelos autoregresivos y los modelos de difusión enmascarada. En este trabajo, reducimos esta brecha de rendimiento aprovechando una idea clave: los procesos de difusión de estado uniforme emergen naturalmente de una difusión gaussiana subyacente. Nuestro método, Duo, transfiere técnicas avanzadas de la difusión gaussiana para mejorar tanto el entrenamiento como el muestreo. Primero, introducimos una estrategia de aprendizaje curricular guiada por el proceso gaussiano, duplicando la velocidad de entrenamiento al reducir la varianza. Los modelos entrenados con aprendizaje curricular superan a los modelos autoregresivos en la perplejidad de cero disparos en 3 de 7 puntos de referencia. Segundo, presentamos la Destilación de Consistencia Discreta, que adapta la destilación de consistencia del ámbito continuo al discreto. Este algoritmo permite la generación en pocos pasos en los modelos de difusión de lenguaje al acelerar el muestreo en dos órdenes de magnitud. Proporcionamos el código y los puntos de control del modelo en la página del proyecto: http://s-sahoo.github.io/duo.
English
Uniform-state discrete diffusion models hold the promise of fast text
generation due to their inherent ability to self-correct. However, they are
typically outperformed by autoregressive models and masked diffusion models. In
this work, we narrow this performance gap by leveraging a key insight:
Uniform-state diffusion processes naturally emerge from an underlying Gaussian
diffusion. Our method, Duo, transfers powerful techniques from Gaussian
diffusion to improve both training and sampling. First, we introduce a
curriculum learning strategy guided by the Gaussian process, doubling training
speed by reducing variance. Models trained with curriculum learning surpass
autoregressive models in zero-shot perplexity on 3 of 7 benchmarks. Second, we
present Discrete Consistency Distillation, which adapts consistency
distillation from the continuous to the discrete setting. This algorithm
unlocks few-step generation in diffusion language models by accelerating
sampling by two orders of magnitude. We provide the code and model checkpoints
on the project page: http://s-sahoo.github.io/duo