Diffusion généralisée discrète à partir d'instantanés

Résumé

Nous présentons Generalized Discrete Diffusion from Snapshots (GDDS), un cadre unifié pour la modélisation de diffusion discrète qui prend en charge des processus de bruitage arbitraires sur de grands espaces d'états discrets. Notre formulation englobe toutes les approches existantes de diffusion discrète, tout en offrant une flexibilité nettement supérieure dans le choix de la dynamique de corruption. Le processus direct de bruitage s'appuie sur l'uniformisation et permet une corruption arbitraire rapide. Pour le processus inverse, nous dérivons une simple borne inférieure de l'évidence (ELBO) basée sur des variables latentes d'instantanés, au lieu du chemin de bruitage complet, qui permet l'entraînement efficace d'architectures génératives standard avec une interprétation probabiliste claire. Nos expériences sur des tâches de génération discrète à grand vocabule suggèrent que le cadre proposé surpasse les méthodes de diffusion discrète existantes en termes d'efficacité d'entraînement et de qualité de génération, et bat pour la première fois à cette échelle les modèles autorégressifs. Nous fournissons le code ainsi qu'un article de blog sur la page du projet : https://oussamazekri.fr/gdds{https://oussamazekri.fr/gdds}.

English

We introduce Generalized Discrete Diffusion from Snapshots (GDDS), a unified framework for discrete diffusion modeling that supports arbitrary noising processes over large discrete state spaces. Our formulation encompasses all existing discrete diffusion approaches, while allowing significantly greater flexibility in the choice of corruption dynamics. The forward noising process relies on uniformization and enables fast arbitrary corruption. For the reverse process, we derive a simple evidence lower bound (ELBO) based on snapshot latents, instead of the entire noising path, that allows efficient training of standard generative modeling architectures with clear probabilistic interpretation. Our experiments on large-vocabulary discrete generation tasks suggest that the proposed framework outperforms existing discrete diffusion methods in terms of training efficiency and generation quality, and beats autoregressive models for the first time at this scale. We provide the code along with a blog post on the project page : https://oussamazekri.fr/gdds{https://oussamazekri.fr/gdds}.