Difusión Discreta Generalizada a partir de Instantáneas

Resumen

Presentamos Generalized Discrete Diffusion from Snapshots (GDDS), un marco unificado para modelado de difusión discreta que soporta procesos arbitrarios de adición de ruido sobre grandes espacios de estados discretos. Nuestra formulación engloba todos los enfoques existentes de difusión discreta, permitiendo al mismo tiempo una flexibilidad significativamente mayor en la elección de las dinámicas de corrupción. El proceso directo de adición de ruido se basa en la uniformización y permite una corrupción arbitraria rápida. Para el proceso inverso, derivamos un límite inferior de evidencia (ELBO) simple basado en latentes de instantáneas, en lugar de toda la trayectoria de ruido, que permite el entrenamiento eficiente de arquitecturas estándar de modelado generativo con una interpretación probabilística clara. Nuestros experimentos en tareas de generación discreta de vocabulario amplio sugieren que el marco propuesto supera a los métodos existentes de difusión discreta en términos de eficiencia de entrenamiento y calidad de generación, y supera por primera vez a los modelos autorregresivos a esta escala. Proporcionamos el código junto con una publicación de blog en la página del proyecto: https://oussamazekri.fr/gdds.

English

We introduce Generalized Discrete Diffusion from Snapshots (GDDS), a unified framework for discrete diffusion modeling that supports arbitrary noising processes over large discrete state spaces. Our formulation encompasses all existing discrete diffusion approaches, while allowing significantly greater flexibility in the choice of corruption dynamics. The forward noising process relies on uniformization and enables fast arbitrary corruption. For the reverse process, we derive a simple evidence lower bound (ELBO) based on snapshot latents, instead of the entire noising path, that allows efficient training of standard generative modeling architectures with clear probabilistic interpretation. Our experiments on large-vocabulary discrete generation tasks suggest that the proposed framework outperforms existing discrete diffusion methods in terms of training efficiency and generation quality, and beats autoregressive models for the first time at this scale. We provide the code along with a blog post on the project page : https://oussamazekri.fr/gdds{https://oussamazekri.fr/gdds}.