Die Diffusionsdualität, Kapitel II: Ψ-Sampler und effiziente Curricula

Zusammenfassung

Uniform-State-Diskrete-Diffusionsmodelle zeichnen sich durch ihre Fähigkeit zur Selbstkorrektur bei der Generierung in wenigen Schritten und bei der Führung aus, was sie in diesen Kontexten autoregressiven oder Masked-Diffusionsmodellen überlegen macht. Allerdings erreicht ihre Abtastqualität bei ancestral Samplern mit zunehmender Schrittzahl ein Plateau. Wir stellen eine Familie von Predictor-Corrector (PC)-Samplern für diskrete Diffusion vor, die frühere Methoden verallgemeinern und auf beliebige Rauschprozesse anwendbar sind. In Kombination mit Uniform-State-Diffusion übertreffen unsere Sampler das ancestrale Sampling sowohl bei der Sprach- als auch bei der Bildmodellierung: Auf OpenWebText wird eine geringere generative Perplexität bei gleicher Unigram-Entropie erzielt, und auf CIFAR10 werden bessere FID/IS-Werte erreicht. Entscheidend ist, dass unsere PC-Methoden – im Gegensatz zu konventionellen Samplern – bei mehr Abtastschritten weiterhin Verbesserungen zeigen. Zusammengenommen stellen diese Ergebnisse die Annahme infrage, dass Masked Diffusion die unausweichliche Zukunft der diffusionsbasierten Sprachmodellierung sei. Darüber hinaus entwickeln wir für die Trainingsphase der Gaußschen Relaxation einen speichereffizienten Lehrplan, der die Trainingszeit im Vergleich zu Duo um 25 % und den Speicherbedarf um 33 % reduziert, bei vergleichbarer Perplexität auf OpenWebText und LM1B sowie starker Leistung in nachgelagerten Aufgaben. Code, Checkpoints und ein Video-Tutorial sind verfügbar unter: https://s-sahoo.com/duo-ch2

English

Uniform-state discrete diffusion models excel at few-step generation and guidance due to their ability to self-correct, making them preferred over autoregressive or Masked diffusion models in these settings. However, their sampling quality plateaus with ancestral samplers as the number of steps increases. We introduce a family of Predictor-Corrector (PC) samplers for discrete diffusion that generalize prior methods and apply to arbitrary noise processes. When paired with uniform-state diffusion, our samplers outperform ancestral sampling on both language and image modeling, achieving lower generative perplexity at matched unigram entropy on OpenWebText and better FID/IS scores on CIFAR10. Crucially, unlike conventional samplers, our PC methods continue to improve with more sampling steps. Taken together, these findings call into question the assumption that Masked diffusion is the inevitable future of diffusion-based language modeling. Beyond sampling, we develop a memory-efficient curriculum for the Gaussian relaxation training phase, reducing training time by 25% and memory by 33% compared to Duo while maintaining comparable perplexity on OpenWebText and LM1B and strong downstream performance. We release code, checkpoints, and a video-tutorial on: https://s-sahoo.com/duo-ch2

Die Diffusionsdualität, Kapitel II: Ψ-Sampler und effiziente Curricula

The Diffusion Duality, Chapter II: Ψ-Samplers and Efficient Curriculum

Zusammenfassung

Support