La Dualité de la Diffusion, Chapitre II : Ψ-Échantillonneurs et Curriculum Efficace

Résumé

Les modèles de diffusion discrets à états uniformes excellent dans la génération en peu d'étapes et le guidage grâce à leur capacité d'auto-correction, ce qui les rend préférables aux modèles autogressifs ou de diffusion masquée dans ces contextes. Cependant, leur qualité d'échantillonnage plafonne avec les échantillonneurs ancestraux lorsque le nombre d'étapes augmente. Nous introduisons une famille d'échantillonneurs Prédicteur-Correcteur (PC) pour la diffusion discrète qui généralise les méthodes antérieures et s'applique à des processus de bruit arbitraires. Associés à la diffusion à états uniformes, nos échantillonneurs surpassent l'échantillonnage ancestral à la fois en modélisation du langage et d'images, obtenant une perplexité générative plus faible à entropie unigramme équivalente sur OpenWebText et de meilleurs scores FID/IS sur CIFAR10. Fait crucial, contrairement aux échantillonneurs conventionnels, nos méthodes PC continuent de s'améliorer avec davantage d'étapes d'échantillonnage. Ensemble, ces résultats remettent en question l'hypothèse selon laquelle la diffusion masquée est l'avenir inévitable de la modélisation du langage par diffusion. Au-delà de l'échantillonnage, nous développons un curriculum économe en mémoire pour la phase d'entraînement par relaxation gaussienne, réduisant le temps d'entraînement de 25% et la mémoire de 33% par rapport à Duo tout en maintenant une perplexité comparable sur OpenWebText et LM1B et de solides performances en aval. Nous publions le code, les points de contrôle et un tutoriel vidéo sur : https://s-sahoo.com/duo-ch2

English

Uniform-state discrete diffusion models excel at few-step generation and guidance due to their ability to self-correct, making them preferred over autoregressive or Masked diffusion models in these settings. However, their sampling quality plateaus with ancestral samplers as the number of steps increases. We introduce a family of Predictor-Corrector (PC) samplers for discrete diffusion that generalize prior methods and apply to arbitrary noise processes. When paired with uniform-state diffusion, our samplers outperform ancestral sampling on both language and image modeling, achieving lower generative perplexity at matched unigram entropy on OpenWebText and better FID/IS scores on CIFAR10. Crucially, unlike conventional samplers, our PC methods continue to improve with more sampling steps. Taken together, these findings call into question the assumption that Masked diffusion is the inevitable future of diffusion-based language modeling. Beyond sampling, we develop a memory-efficient curriculum for the Gaussian relaxation training phase, reducing training time by 25% and memory by 33% compared to Duo while maintaining comparable perplexity on OpenWebText and LM1B and strong downstream performance. We release code, checkpoints, and a video-tutorial on: https://s-sahoo.com/duo-ch2

La Dualité de la Diffusion, Chapitre II : Ψ-Échantillonneurs et Curriculum Efficace

The Diffusion Duality, Chapter II: Ψ-Samplers and Efficient Curriculum

Résumé

Support