Diffusione Discreta Generalizzata a partire da Istantanee

Abstract

Introduciamo Generalized Discrete Diffusion from Snapshots (GDDS), un framework unificato per la modellazione di diffusione discreta che supporta processi di rumore arbitrari su ampi spazi di stati discreti. La nostra formulazione comprende tutti gli approcci esistenti di diffusione discreta, consentendo al contempo una flessibilità significativamente maggiore nella scelta delle dinamiche di corruzione. Il processo di rumore in avanti si basa sull'uniformizzazione e permette una corruzione arbitraria e veloce. Per il processo inverso, deriviamo un semplice evidence lower bound (ELBO) basato su latenti snapshot, invece dell'intero percorso di rumore, che consente l'addestramento efficiente di architetture generative standard con una chiara interpretazione probabilistica. I nostri esperimenti su task di generazione discreta con vocabolario ampio indicano che il framework proposto supera i metodi di diffusione discreta esistenti in termini di efficienza di addestramento e qualità della generazione, e batte per la prima volta i modelli autoregressivi su questa scala. Forniamo il codice insieme a un post sul blog sulla pagina del progetto: https://oussamazekri.fr/gdds{https://oussamazekri.fr/gdds}.

English

We introduce Generalized Discrete Diffusion from Snapshots (GDDS), a unified framework for discrete diffusion modeling that supports arbitrary noising processes over large discrete state spaces. Our formulation encompasses all existing discrete diffusion approaches, while allowing significantly greater flexibility in the choice of corruption dynamics. The forward noising process relies on uniformization and enables fast arbitrary corruption. For the reverse process, we derive a simple evidence lower bound (ELBO) based on snapshot latents, instead of the entire noising path, that allows efficient training of standard generative modeling architectures with clear probabilistic interpretation. Our experiments on large-vocabulary discrete generation tasks suggest that the proposed framework outperforms existing discrete diffusion methods in terms of training efficiency and generation quality, and beats autoregressive models for the first time at this scale. We provide the code along with a blog post on the project page : https://oussamazekri.fr/gdds{https://oussamazekri.fr/gdds}.