A Dualidade da Difusão, Capítulo II: Ψ-Amostradores e Currículo Eficiente

Resumo

Os modelos de difusão discreta de estado uniforme destacam-se na geração e orientação com poucos passos devido à sua capacidade de autocorreção, tornando-os preferíveis aos modelos autoregressivos ou de difusão mascarada nestes contextos. No entanto, a sua qualidade de amostragem estabiliza com amostradores ancestrais à medida que o número de passos aumenta. Introduzimos uma família de amostradores Preditor-Corretor (PC) para difusão discreta que generaliza métodos anteriores e se aplica a processos de ruído arbitrários. Quando emparelhados com difusão de estado uniforme, os nossos amostradores superam a amostragem ancestral tanto na modelação de linguagem como de imagem, alcançando menor perplexidade generativa com entropia unigramática equivalente no OpenWebText e melhores pontuações FID/IS no CIFAR10. Crucialmente, ao contrário dos amostradores convencionais, os nossos métodos PC continuam a melhorar com mais passos de amostragem. Em conjunto, estes resultados questionam a suposição de que a difusão mascarada é o futuro inevitável da modelação de linguagem baseada em difusão. Para além da amostragem, desenvolvemos um currículo eficiente em memória para a fase de treino de relaxamento gaussiano, reduzindo o tempo de treino em 25% e a memória em 33% em comparação com o Duo, mantendo perplexidade comparável no OpenWebText e LM1B e forte desempenho em tarefas downstream. Disponibilizamos código, *checkpoints* e um tutorial em vídeo em: https://s-sahoo.com/duo-ch2

English

Uniform-state discrete diffusion models excel at few-step generation and guidance due to their ability to self-correct, making them preferred over autoregressive or Masked diffusion models in these settings. However, their sampling quality plateaus with ancestral samplers as the number of steps increases. We introduce a family of Predictor-Corrector (PC) samplers for discrete diffusion that generalize prior methods and apply to arbitrary noise processes. When paired with uniform-state diffusion, our samplers outperform ancestral sampling on both language and image modeling, achieving lower generative perplexity at matched unigram entropy on OpenWebText and better FID/IS scores on CIFAR10. Crucially, unlike conventional samplers, our PC methods continue to improve with more sampling steps. Taken together, these findings call into question the assumption that Masked diffusion is the inevitable future of diffusion-based language modeling. Beyond sampling, we develop a memory-efficient curriculum for the Gaussian relaxation training phase, reducing training time by 25% and memory by 33% compared to Duo while maintaining comparable perplexity on OpenWebText and LM1B and strong downstream performance. We release code, checkpoints, and a video-tutorial on: https://s-sahoo.com/duo-ch2

A Dualidade da Difusão, Capítulo II: Ψ-Amostradores e Currículo Eficiente

The Diffusion Duality, Chapter II: Ψ-Samplers and Efficient Curriculum

Resumo

Support