Réfléchissez pendant que vous générez : Diffusion discrète avec débruitage planifié

papers.abstract

La diffusion discrète a atteint des performances de pointe, surpassant ou se rapprochant des modèles autorégressifs sur des référentiels standard. Dans ce travail, nous introduisons la Diffusion Discrète avec Débruitage Planifié (DDPD), un nouveau cadre qui sépare le processus de génération en deux modèles : un planificateur et un débruiteur. Au moment de l'inférence, le planificateur sélectionne les positions à débruiter ensuite en identifiant les positions les plus corrompues nécessitant un débruitage, comprenant à la fois celles initialement corrompues et celles nécessitant un affinement supplémentaire. Cette approche de planification et de débruitage permet une reconstruction plus efficace pendant la génération en identifiant et en débruitant de manière itérative les corruptions dans l'ordre optimal. DDPD surpasse les méthodes traditionnelles de diffusion de masque uniquement débruiteur, obtenant des résultats supérieurs sur des référentiels de modélisation de langage tels que text8, OpenWebText, et la génération basée sur les jetons sur ImageNet 256 fois 256. Notamment, en modélisation de langage, DDPD réduit significativement l'écart de performance entre les méthodes basées sur la diffusion et autorégressives en termes de perplexité générative. Le code est disponible sur https://github.com/liusulin/DDPD.

English

Discrete diffusion has achieved state-of-the-art performance, outperforming or approaching autoregressive models on standard benchmarks. In this work, we introduce Discrete Diffusion with Planned Denoising (DDPD), a novel framework that separates the generation process into two models: a planner and a denoiser. At inference time, the planner selects which positions to denoise next by identifying the most corrupted positions in need of denoising, including both initially corrupted and those requiring additional refinement. This plan-and-denoise approach enables more efficient reconstruction during generation by iteratively identifying and denoising corruptions in the optimal order. DDPD outperforms traditional denoiser-only mask diffusion methods, achieving superior results on language modeling benchmarks such as text8, OpenWebText, and token-based generation on ImageNet 256 times 256. Notably, in language modeling, DDPD significantly reduces the performance gap between diffusion-based and autoregressive methods in terms of generative perplexity. Code is available at https://github.com/liusulin/DDPD.

Réfléchissez pendant que vous générez : Diffusion discrète avec débruitage planifié

Think While You Generate: Discrete Diffusion with Planned Denoising

papers.abstract

Support