Pensa Mentre Generi: Diffusione Discreta con Denoising Pianificato

Abstract

La diffusione discreta ha raggiunto prestazioni all'avanguardia, superando o avvicinandosi ai modelli autoregressivi su benchmark standard. In questo lavoro, presentiamo la Diffusione Discreta con Denoising Pianificato (DDPD), un nuovo framework che separa il processo di generazione in due modelli: un pianificatore e un denoiser. Durante l'inferenza, il pianificatore seleziona quali posizioni denoizzare successivamente identificando le posizioni più corrotte che necessitano di denoising, includendo sia quelle corrotte inizialmente sia quelle che richiedono ulteriore raffinamento. Questo approccio di pianificazione e denoising consente una ricostruzione più efficiente durante la generazione identificando e denoising iterativamente le corruzioni nell'ordine ottimale. DDPD supera i tradizionali metodi di diffusione con maschera basati solo sul denoiser, ottenendo risultati superiori su benchmark di modellazione del linguaggio come text8, OpenWebText e generazione basata su token su ImageNet 256 per 256. In particolare, nella modellazione del linguaggio, DDPD riduce significativamente il divario di prestazioni tra i metodi basati sulla diffusione e quelli autoregressivi in termini di perplessità generativa. Il codice è disponibile su https://github.com/liusulin/DDPD.

English

Discrete diffusion has achieved state-of-the-art performance, outperforming or approaching autoregressive models on standard benchmarks. In this work, we introduce Discrete Diffusion with Planned Denoising (DDPD), a novel framework that separates the generation process into two models: a planner and a denoiser. At inference time, the planner selects which positions to denoise next by identifying the most corrupted positions in need of denoising, including both initially corrupted and those requiring additional refinement. This plan-and-denoise approach enables more efficient reconstruction during generation by iteratively identifying and denoising corruptions in the optimal order. DDPD outperforms traditional denoiser-only mask diffusion methods, achieving superior results on language modeling benchmarks such as text8, OpenWebText, and token-based generation on ImageNet 256 times 256. Notably, in language modeling, DDPD significantly reduces the performance gap between diffusion-based and autoregressive methods in terms of generative perplexity. Code is available at https://github.com/liusulin/DDPD.

Pensa Mentre Generi: Diffusione Discreta con Denoising Pianificato

Think While You Generate: Discrete Diffusion with Planned Denoising

Abstract

Support