La Dualidad de la Difusión, Capítulo II: Muestreadores-Ψ y Currículo Eficiente

Resumen

Los modelos de difusión discreta de estado uniforme sobresalen en generación y guía con pocos pasos debido a su capacidad de autocorrección, lo que los hace preferibles sobre los modelos autoregresivos o de difusión enmascarada en estos contextos. Sin embargo, su calidad de muestreo se estanca con muestreadores ancestrales a medida que aumenta el número de pasos. Introducimos una familia de muestreadores Predictor-Corrector (PC) para difusión discreta que generalizan métodos previos y se aplican a procesos de ruido arbitrarios. Cuando se combinan con difusión de estado uniforme, nuestros muestreadores superan al muestreo ancestral tanto en modelado de lenguaje como de imágenes, logrando una menor perplejidad generativa con entropía unigrama equivalente en OpenWebText y mejores puntuaciones FID/IS en CIFAR10. Crucialmente, a diferencia de los muestreadores convencionales, nuestros métodos PC continúan mejorando con más pasos de muestreo. En conjunto, estos hallazgos cuestionan la suposición de que la difusión enmascarada es el futuro inevitable del modelado de lenguaje basado en difusión. Más allá del muestreo, desarrollamos un currículum eficiente en memoria para la fase de entrenamiento por relajación gaussiana, reduciendo el tiempo de entrenamiento en un 25% y la memoria en un 33% en comparación con Duo, manteniendo una perplejidad comparable en OpenWebText y LM1B y un sólido rendimiento en tareas posteriores. Publicamos código, puntos de control y un videotutorial en: https://s-sahoo.com/duo-ch2

English

Uniform-state discrete diffusion models excel at few-step generation and guidance due to their ability to self-correct, making them preferred over autoregressive or Masked diffusion models in these settings. However, their sampling quality plateaus with ancestral samplers as the number of steps increases. We introduce a family of Predictor-Corrector (PC) samplers for discrete diffusion that generalize prior methods and apply to arbitrary noise processes. When paired with uniform-state diffusion, our samplers outperform ancestral sampling on both language and image modeling, achieving lower generative perplexity at matched unigram entropy on OpenWebText and better FID/IS scores on CIFAR10. Crucially, unlike conventional samplers, our PC methods continue to improve with more sampling steps. Taken together, these findings call into question the assumption that Masked diffusion is the inevitable future of diffusion-based language modeling. Beyond sampling, we develop a memory-efficient curriculum for the Gaussian relaxation training phase, reducing training time by 25% and memory by 33% compared to Duo while maintaining comparable perplexity on OpenWebText and LM1B and strong downstream performance. We release code, checkpoints, and a video-tutorial on: https://s-sahoo.com/duo-ch2

La Dualidad de la Difusión, Capítulo II: Muestreadores-Ψ y Currículo Eficiente

The Diffusion Duality, Chapter II: Ψ-Samplers and Efficient Curriculum

Resumen

Support