Диффузионная двойственность, Глава II: Ψ-сэмплеры и эффективное структурирование обучения

Аннотация

Дискретные диффузионные модели с равномерным состоянием превосходно справляются с генерацией за небольшое число шагов и управлением благодаря своей способности к самокоррекции, что делает их предпочтительнее авторегрессионных моделей или моделей маскированной диффузии в таких сценариях. Однако качество их выборки методами ancestral sampling выходит на плато с увеличением количества шагов. Мы представляем семейство сэмплеров «предиктор-корректор» для дискретной диффузии, которые обобщают предыдущие методы и применимы к произвольным процессам шума. В сочетании с диффузией с равномерным состоянием наши сэмплеры превосходят ancestral sampling как в языковом, так и в изображенском моделировании, достигая более низкой перплексии генерации при сопоставимой энтропии униграмм на OpenWebText и лучших показателей FID/IS на CIFAR10. Что важно, в отличие от традиционных сэмплеров, наши методы PC продолжают улучшаться с увеличением числа шагов выборки. В совокупности эти результаты ставят под сомнение предположение о том, что маскированная диффузия — неизбежное будущее диффузионного языкового моделирования. Помимо выборки, мы разработали ресурсосберегающий план обучения для фазы тренировки с гауссовской релаксацией, сократив время обучения на 25% и потребление памяти на 33% по сравнению с Duo при сохранении сопоставимой перплексии на OpenWebText и LM1B и высокой производительности на downstream-задачах. Мы публикуем код, контрольные точки и видеоурок по адресу: https://s-sahoo.com/duo-ch2.

English

Uniform-state discrete diffusion models excel at few-step generation and guidance due to their ability to self-correct, making them preferred over autoregressive or Masked diffusion models in these settings. However, their sampling quality plateaus with ancestral samplers as the number of steps increases. We introduce a family of Predictor-Corrector (PC) samplers for discrete diffusion that generalize prior methods and apply to arbitrary noise processes. When paired with uniform-state diffusion, our samplers outperform ancestral sampling on both language and image modeling, achieving lower generative perplexity at matched unigram entropy on OpenWebText and better FID/IS scores on CIFAR10. Crucially, unlike conventional samplers, our PC methods continue to improve with more sampling steps. Taken together, these findings call into question the assumption that Masked diffusion is the inevitable future of diffusion-based language modeling. Beyond sampling, we develop a memory-efficient curriculum for the Gaussian relaxation training phase, reducing training time by 25% and memory by 33% compared to Duo while maintaining comparable perplexity on OpenWebText and LM1B and strong downstream performance. We release code, checkpoints, and a video-tutorial on: https://s-sahoo.com/duo-ch2

Диффузионная двойственность, Глава II: Ψ-сэмплеры и эффективное структурирование обучения

The Diffusion Duality, Chapter II: Ψ-Samplers and Efficient Curriculum

Аннотация

Support