Difusão Discreta Generalizada a partir de Instantâneos

Resumo

Apresentamos o Generalized Discrete Diffusion from Snapshots (GDDS), uma estrutura unificada para modelagem de difusão discreta que suporta processos arbitrários de adição de ruído em grandes espaços de estado discretos. Nossa formulação abrange todas as abordagens existentes de difusão discreta, permitindo uma flexibilidade significativamente maior na escolha da dinâmica de corrupção. O processo direto de adição de ruído baseia-se na uniformização e permite corrupção arbitrária rápida. Para o processo reverso, derivamos um limite inferior de evidência (ELBO) simples baseado em variáveis latentes de instantâneo, em vez de todo o caminho de ruído, que permite o treinamento eficiente de arquiteturas padrão de modelagem generativa com interpretação probabilística clara. Nossos experimentos em tarefas de geração discreta de grande vocabulário sugerem que a estrutura proposta supera os métodos existentes de difusão discreta em termos de eficiência de treinamento e qualidade de geração, e supera os modelos autoregressivos pela primeira vez nesta escala. Disponibilizamos o código juntamente com um artigo no blog na página do projeto: https://oussamazekri.fr/gdds{https://oussamazekri.fr/gdds}.

English

We introduce Generalized Discrete Diffusion from Snapshots (GDDS), a unified framework for discrete diffusion modeling that supports arbitrary noising processes over large discrete state spaces. Our formulation encompasses all existing discrete diffusion approaches, while allowing significantly greater flexibility in the choice of corruption dynamics. The forward noising process relies on uniformization and enables fast arbitrary corruption. For the reverse process, we derive a simple evidence lower bound (ELBO) based on snapshot latents, instead of the entire noising path, that allows efficient training of standard generative modeling architectures with clear probabilistic interpretation. Our experiments on large-vocabulary discrete generation tasks suggest that the proposed framework outperforms existing discrete diffusion methods in terms of training efficiency and generation quality, and beats autoregressive models for the first time at this scale. We provide the code along with a blog post on the project page : https://oussamazekri.fr/gdds{https://oussamazekri.fr/gdds}.