Обобщенная дискретная диффузия по снимкам

Аннотация

Мы представляем Обобщённую Дискретную Диффузию по Снимкам (GDDS) — унифицированную структуру для дискретного диффузионного моделирования, которая поддерживает произвольные процессы зашумления в больших дискретных пространствах состояний. Наша формулировка охватывает все существующие подходы к дискретной диффузии, обеспечивая при этом значительно большую гибкость в выборе динамики искажения. Прямой процесс зашумления опирается на униформизацию и позволяет осуществлять быстрое произвольное искажение. Для обратного процесса мы выводим простую нижнюю оценку правдоподобия (ELBO), основанную на латентных переменных снимков, а не на всём пути зашумления, что позволяет эффективно обучать стандартные архитектуры генеративного моделирования с чёткой вероятностной интерпретацией. Наши эксперименты на задачах генерации с большим словарным запасом показывают, что предложенная структура превосходит существующие методы дискретной диффузии по эффективности обучения и качеству генерации, и впервые на таком масштабе опережает авторегрессионные модели. Мы предоставляем код и блог-пост на странице проекта: https://oussamazekri.fr/gdds{https://oussamazekri.fr/gdds}.

English

We introduce Generalized Discrete Diffusion from Snapshots (GDDS), a unified framework for discrete diffusion modeling that supports arbitrary noising processes over large discrete state spaces. Our formulation encompasses all existing discrete diffusion approaches, while allowing significantly greater flexibility in the choice of corruption dynamics. The forward noising process relies on uniformization and enables fast arbitrary corruption. For the reverse process, we derive a simple evidence lower bound (ELBO) based on snapshot latents, instead of the entire noising path, that allows efficient training of standard generative modeling architectures with clear probabilistic interpretation. Our experiments on large-vocabulary discrete generation tasks suggest that the proposed framework outperforms existing discrete diffusion methods in terms of training efficiency and generation quality, and beats autoregressive models for the first time at this scale. We provide the code along with a blog post on the project page : https://oussamazekri.fr/gdds{https://oussamazekri.fr/gdds}.