ChatPaper.aiChatPaper

Двойственность диффузии

The Diffusion Duality

June 12, 2025
Авторы: Subham Sekhar Sahoo, Justin Deschenaux, Aaron Gokaslan, Guanghan Wang, Justin Chiu, Volodymyr Kuleshov
cs.AI

Аннотация

Дискретные модели диффузии с равномерным состоянием обещают быструю генерацию текста благодаря их врожденной способности к самокоррекции. Однако они обычно уступают авторегрессивным моделям и моделям маскированной диффузии. В данной работе мы сокращаем этот разрыв в производительности, используя ключевое наблюдение: процессы диффузии с равномерным состоянием естественным образом возникают из базовой гауссовой диффузии. Наш метод, Duo, переносит мощные техники из гауссовой диффузии для улучшения как обучения, так и выборки. Во-первых, мы вводим стратегию обучения по учебному плану, управляемую гауссовым процессом, что удваивает скорость обучения за счет снижения дисперсии. Модели, обученные с использованием учебного плана, превосходят авторегрессивные модели по перплексии в условиях zero-shot на 3 из 7 тестовых наборов. Во-вторых, мы представляем метод дискретного согласованного дистилляции, который адаптирует дистилляцию согласованности из непрерывного в дискретный контекст. Этот алгоритм позволяет реализовать генерацию за несколько шагов в моделях диффузии для языка, ускоряя выборку на два порядка величины. Мы предоставляем код и контрольные точки модели на странице проекта: http://s-sahoo.github.io/duo.
English
Uniform-state discrete diffusion models hold the promise of fast text generation due to their inherent ability to self-correct. However, they are typically outperformed by autoregressive models and masked diffusion models. In this work, we narrow this performance gap by leveraging a key insight: Uniform-state diffusion processes naturally emerge from an underlying Gaussian diffusion. Our method, Duo, transfers powerful techniques from Gaussian diffusion to improve both training and sampling. First, we introduce a curriculum learning strategy guided by the Gaussian process, doubling training speed by reducing variance. Models trained with curriculum learning surpass autoregressive models in zero-shot perplexity on 3 of 7 benchmarks. Second, we present Discrete Consistency Distillation, which adapts consistency distillation from the continuous to the discrete setting. This algorithm unlocks few-step generation in diffusion language models by accelerating sampling by two orders of magnitude. We provide the code and model checkpoints on the project page: http://s-sahoo.github.io/duo
PDF333June 16, 2025