La Dualità della Diffusione, Capitolo II: Ψ-Campionatori e Curriculum Efficiente

Abstract

I modelli di diffusione discreta a stato uniforme eccellono nella generazione e guida con pochi passi grazie alla loro capacità di autocorrezione, rendendoli preferibili rispetto ai modelli autoregressivi o di diffusione mascherata in questi contesti. Tuttavia, la loro qualità di campionamento raggiunge un plateau con i campionatori ancestrali all'aumentare del numero di passi. Introduciamo una famiglia di campionatori Predittore-Correttore (PC) per la diffusione discreta che generalizza i metodi precedenti e si applica a processi di rumore arbitrari. Se abbinati alla diffusione a stato uniforme, i nostri campionatori superano il campionamento ancestrale sia nella modellazione linguistica che in quella delle immagini, raggiungendo una minore perplessità generativa a parità di entropia unigramma su OpenWebText e migliori punteggi FID/IS su CIFAR10. Crucialmente, a differenza dei campionatori convenzionali, i nostri metodi PC continuano a migliorare con l'aumentare dei passi di campionamento. Nel complesso, questi risultati mettono in discussione l'assunzione che la diffusione mascherata sia il futuro inevitabile della modellazione linguistica basata sulla diffusione. Oltre al campionamento, sviluppiamo un curriculum efficiente in termini di memoria per la fase di addestramento con rilassamento gaussiano, riducendo il tempo di addestramento del 25% e la memoria del 33% rispetto a Duo, mantenendo una perplessità comparabile su OpenWebText e LM1B e solide prestazioni downstream. Rilasciamo codice, checkpoint e un video-tutorial su: https://s-sahoo.com/duo-ch2

English

Uniform-state discrete diffusion models excel at few-step generation and guidance due to their ability to self-correct, making them preferred over autoregressive or Masked diffusion models in these settings. However, their sampling quality plateaus with ancestral samplers as the number of steps increases. We introduce a family of Predictor-Corrector (PC) samplers for discrete diffusion that generalize prior methods and apply to arbitrary noise processes. When paired with uniform-state diffusion, our samplers outperform ancestral sampling on both language and image modeling, achieving lower generative perplexity at matched unigram entropy on OpenWebText and better FID/IS scores on CIFAR10. Crucially, unlike conventional samplers, our PC methods continue to improve with more sampling steps. Taken together, these findings call into question the assumption that Masked diffusion is the inevitable future of diffusion-based language modeling. Beyond sampling, we develop a memory-efficient curriculum for the Gaussian relaxation training phase, reducing training time by 25% and memory by 33% compared to Duo while maintaining comparable perplexity on OpenWebText and LM1B and strong downstream performance. We release code, checkpoints, and a video-tutorial on: https://s-sahoo.com/duo-ch2

La Dualità della Diffusione, Capitolo II: Ψ-Campionatori e Curriculum Efficiente

The Diffusion Duality, Chapter II: Ψ-Samplers and Efficient Curriculum

Abstract

Support