ChatPaper.aiChatPaper

A Dualidade de Difusão

The Diffusion Duality

June 12, 2025
Autores: Subham Sekhar Sahoo, Justin Deschenaux, Aaron Gokaslan, Guanghan Wang, Justin Chiu, Volodymyr Kuleshov
cs.AI

Resumo

Modelos de difusão discreta de estado uniforme prometem geração rápida de texto devido à sua capacidade inerente de autocorreção. No entanto, eles geralmente são superados por modelos autoregressivos e modelos de difusão mascarada. Neste trabalho, reduzimos essa lacuna de desempenho ao aproveitar uma percepção fundamental: processos de difusão de estado uniforme emergem naturalmente de uma difusão Gaussiana subjacente. Nosso método, Duo, transfere técnicas poderosas da difusão Gaussiana para melhorar tanto o treinamento quanto a amostragem. Primeiro, introduzimos uma estratégia de aprendizado curricular guiada pelo processo Gaussiano, dobrando a velocidade de treinamento ao reduzir a variância. Modelos treinados com aprendizado curricular superam modelos autoregressivos em perplexidade zero-shot em 3 de 7 benchmarks. Segundo, apresentamos a Distilação de Consistência Discreta, que adapta a distilação de consistência do cenário contínuo para o discreto. Esse algoritmo permite geração em poucos passos em modelos de difusão de linguagem ao acelerar a amostragem em duas ordens de magnitude. Disponibilizamos o código e os checkpoints dos modelos na página do projeto: http://s-sahoo.github.io/duo.
English
Uniform-state discrete diffusion models hold the promise of fast text generation due to their inherent ability to self-correct. However, they are typically outperformed by autoregressive models and masked diffusion models. In this work, we narrow this performance gap by leveraging a key insight: Uniform-state diffusion processes naturally emerge from an underlying Gaussian diffusion. Our method, Duo, transfers powerful techniques from Gaussian diffusion to improve both training and sampling. First, we introduce a curriculum learning strategy guided by the Gaussian process, doubling training speed by reducing variance. Models trained with curriculum learning surpass autoregressive models in zero-shot perplexity on 3 of 7 benchmarks. Second, we present Discrete Consistency Distillation, which adapts consistency distillation from the continuous to the discrete setting. This algorithm unlocks few-step generation in diffusion language models by accelerating sampling by two orders of magnitude. We provide the code and model checkpoints on the project page: http://s-sahoo.github.io/duo
PDF384June 16, 2025