Modelo de Difusão Discreta Continuamente Aumentada para Geração Categórica
Continuously Augmented Discrete Diffusion model for Categorical Generative Modeling
October 1, 2025
Autores: Huangjie Zheng, Shansan Gong, Ruixiang Zhang, Tianrong Chen, Jiatao Gu, Mingyuan Zhou, Navdeep Jaitly, Yizhe Zhang
cs.AI
Resumo
Modelos de difusão discreta padrão tratam todos os estados não observados de forma idêntica, mapeando-os para um token de absorção [MASK]. Isso cria um "vazio de informação" onde a informação semântica que poderia ser inferida a partir de tokens não mascarados é perdida entre as etapas de remoção de ruído. Introduzimos o Continuously Augmented Discrete Diffusion (CADD), uma estrutura que amplia o espaço de estados discretos com uma difusão emparelhada em um espaço latente contínuo. Isso resulta em estados gradualmente corrompidos e graduados, nos quais tokens mascarados são representados por vetores latentes ruidosos, porém informativos, em vez de "vazios de informação" colapsados. A cada etapa reversa, o CADD pode aproveitar o latente contínuo como uma dica semântica para guiar a remoção de ruído discreta. O design é limpo e compatível com o treinamento existente de difusão discreta. No momento da amostragem, a força e a escolha do estimador para o vetor latente contínuo permitem uma troca controlada entre comportamentos de cobertura de modos (gerando saídas diversas) e busca de modos (gerando saídas contextualmente precisas). Empiricamente, demonstramos que o CADD melhora a qualidade gerativa em relação à difusão baseada em máscara em geração de texto, síntese de imagens e modelagem de código, com ganhos consistentes em métricas qualitativas e quantitativas em comparação com fortes baselines discretas.
English
Standard discrete diffusion models treat all unobserved states identically by
mapping them to an absorbing [MASK] token. This creates an 'information void'
where semantic information that could be inferred from unmasked tokens is lost
between denoising steps. We introduce Continuously Augmented Discrete Diffusion
(CADD), a framework that augments the discrete state space with a paired
diffusion in a continuous latent space. This yields graded, gradually corrupted
states in which masked tokens are represented by noisy yet informative latent
vectors rather than collapsed 'information voids'. At each reverse step, CADD
may leverage the continuous latent as a semantic hint to guide discrete
denoising. The design is clean and compatible with existing discrete diffusion
training. At sampling time, the strength and choice of estimator for the
continuous latent vector enables a controlled trade-off between mode-coverage
(generating diverse outputs) and mode-seeking (generating contextually precise
outputs) behaviors. Empirically, we demonstrate CADD improves generative
quality over mask-based diffusion across text generation, image synthesis, and
code modeling, with consistent gains on both qualitative and quantitative
metrics against strong discrete baselines.