Pense Enquanto Gera: Difusão Discreta com Desnublamento Planejado
Think While You Generate: Discrete Diffusion with Planned Denoising
October 8, 2024
Autores: Sulin Liu, Juno Nam, Andrew Campbell, Hannes Stärk, Yilun Xu, Tommi Jaakkola, Rafael Gómez-Bombarelli
cs.AI
Resumo
A difusão discreta alcançou desempenho de ponta, superando ou se aproximando de modelos autorregressivos em benchmarks padrão. Neste trabalho, apresentamos a Difusão Discreta com Desnublamento Planejado (DDPD), um novo framework que separa o processo de geração em dois modelos: um planejador e um desnublador. No momento da inferência, o planejador seleciona quais posições desnublar a seguir, identificando as posições mais corrompidas que necessitam de desnublamento, incluindo aquelas inicialmente corrompidas e aquelas que requerem refinamento adicional. Essa abordagem de planejamento e desnublamento permite uma reconstrução mais eficiente durante a geração, identificando e desnublando iterativamente as corrupções na ordem ótima. A DDPD supera os métodos tradicionais de difusão de máscara apenas com desnublador, alcançando resultados superiores em benchmarks de modelagem de linguagem, como text8, OpenWebText e geração baseada em token no ImageNet 256 vezes 256. Notavelmente, na modelagem de linguagem, a DDPD reduz significativamente a diferença de desempenho entre métodos baseados em difusão e autorregressivos em termos de perplexidade generativa. O código está disponível em https://github.com/liusulin/DDPD.
English
Discrete diffusion has achieved state-of-the-art performance, outperforming
or approaching autoregressive models on standard benchmarks. In this work, we
introduce Discrete Diffusion with Planned Denoising (DDPD), a novel framework
that separates the generation process into two models: a planner and a
denoiser. At inference time, the planner selects which positions to denoise
next by identifying the most corrupted positions in need of denoising,
including both initially corrupted and those requiring additional refinement.
This plan-and-denoise approach enables more efficient reconstruction during
generation by iteratively identifying and denoising corruptions in the optimal
order. DDPD outperforms traditional denoiser-only mask diffusion methods,
achieving superior results on language modeling benchmarks such as text8,
OpenWebText, and token-based generation on ImageNet 256 times 256. Notably,
in language modeling, DDPD significantly reduces the performance gap between
diffusion-based and autoregressive methods in terms of generative perplexity.
Code is available at https://github.com/liusulin/DDPD.Summary
AI-Generated Summary