Generalisierte diskrete Diffusion aus Momentaufnahmen

Zusammenfassung

Wir stellen Generalized Discrete Diffusion from Snapshots (GDDS) vor, einen einheitlichen Rahmen für diskrete Diffusionsmodelle, der beliebige Rauschprozesse in großen diskreten Zustandsräumen unterstützt. Unsere Formulierung umfasst alle bestehenden diskreten Diffusionsansätze und ermöglicht gleichzeitig eine deutlich größere Flexibilität bei der Wahl der Korruptionsdynamik. Der Vorwärts-Rauschprozess basiert auf Uniformisierung und ermöglicht eine schnelle, beliebige Korruption. Für den Rückwärtsprozess leiten wir eine einfache Evidenzuntergrenze (ELBO) ab, die auf Snapshot-Latents anstelle des gesamten Rauschpfads basiert. Dies ermöglicht eine effiziente Training standardmäßiger generativer Modellarchitekturen mit klarer probabilistischer Interpretation. Unsere Experimente zu Diskretgenerierungsaufgaben mit großem Vokabular legen nahe, dass der vorgeschlagene Rahmen bestehende diskrete Diffusionsmethoden in Bezug auf Trainingseffizienz und Generierungsqualität übertrifft und in diesem Maßstab erstmals autoregressive Modelle schlägt. Wir stellen den Code zusammen mit einem Blogbeitrag auf der Projektseite bereit: https://oussamazekri.fr/gdds{https://oussamazekri.fr/gdds}.

English

We introduce Generalized Discrete Diffusion from Snapshots (GDDS), a unified framework for discrete diffusion modeling that supports arbitrary noising processes over large discrete state spaces. Our formulation encompasses all existing discrete diffusion approaches, while allowing significantly greater flexibility in the choice of corruption dynamics. The forward noising process relies on uniformization and enables fast arbitrary corruption. For the reverse process, we derive a simple evidence lower bound (ELBO) based on snapshot latents, instead of the entire noising path, that allows efficient training of standard generative modeling architectures with clear probabilistic interpretation. Our experiments on large-vocabulary discrete generation tasks suggest that the proposed framework outperforms existing discrete diffusion methods in terms of training efficiency and generation quality, and beats autoregressive models for the first time at this scale. We provide the code along with a blog post on the project page : https://oussamazekri.fr/gdds{https://oussamazekri.fr/gdds}.