ChatPaper.aiChatPaper

Думайте, генерируя: дискретная диффузия с плановым шумоподавлением

Think While You Generate: Discrete Diffusion with Planned Denoising

October 8, 2024
Авторы: Sulin Liu, Juno Nam, Andrew Campbell, Hannes Stärk, Yilun Xu, Tommi Jaakkola, Rafael Gómez-Bombarelli
cs.AI

Аннотация

Дискретная диффузия достигла передовых результатов, превосходя или приближаясь к авторегрессионным моделям на стандартных бенчмарках. В данной работе мы представляем Дискретную Диффузию с Плановым Денойзингом (DDPD), новую концепцию, которая разделяет процесс генерации на две модели: планировщик и денойзер. На этапе вывода планировщик выбирает позиции для следующего денойзинга, определяя наиболее поврежденные позиции, требующие денойзинга, включая как изначально поврежденные, так и те, которые требуют дополнительной доработки. Этот подход планирования и денойзинга обеспечивает более эффективную реконструкцию во время генерации путем итеративного определения и денойзинга повреждений в оптимальном порядке. DDPD превосходит традиционные методы диффузии маски только с денойзером, достигая превосходных результатов на бенчмарках языкового моделирования, таких как text8, OpenWebText и генерация на основе токенов на ImageNet 256 на 256. Заметно, что в языковом моделировании DDPD значительно уменьшает разрыв в производительности между методами на основе диффузии и авторегрессионными методами в терминах генеративной перплексии. Код доступен по ссылке https://github.com/liusulin/DDPD.
English
Discrete diffusion has achieved state-of-the-art performance, outperforming or approaching autoregressive models on standard benchmarks. In this work, we introduce Discrete Diffusion with Planned Denoising (DDPD), a novel framework that separates the generation process into two models: a planner and a denoiser. At inference time, the planner selects which positions to denoise next by identifying the most corrupted positions in need of denoising, including both initially corrupted and those requiring additional refinement. This plan-and-denoise approach enables more efficient reconstruction during generation by iteratively identifying and denoising corruptions in the optimal order. DDPD outperforms traditional denoiser-only mask diffusion methods, achieving superior results on language modeling benchmarks such as text8, OpenWebText, and token-based generation on ImageNet 256 times 256. Notably, in language modeling, DDPD significantly reduces the performance gap between diffusion-based and autoregressive methods in terms of generative perplexity. Code is available at https://github.com/liusulin/DDPD.

Summary

AI-Generated Summary

PDF113November 16, 2024