Réfléchissez pendant que vous générez : Diffusion discrète avec débruitage planifié
Think While You Generate: Discrete Diffusion with Planned Denoising
October 8, 2024
Auteurs: Sulin Liu, Juno Nam, Andrew Campbell, Hannes Stärk, Yilun Xu, Tommi Jaakkola, Rafael Gómez-Bombarelli
cs.AI
Résumé
La diffusion discrète a atteint des performances de pointe, surpassant ou se rapprochant des modèles autorégressifs sur des référentiels standard. Dans ce travail, nous introduisons la Diffusion Discrète avec Débruitage Planifié (DDPD), un nouveau cadre qui sépare le processus de génération en deux modèles : un planificateur et un débruiteur. Au moment de l'inférence, le planificateur sélectionne les positions à débruiter ensuite en identifiant les positions les plus corrompues nécessitant un débruitage, comprenant à la fois celles initialement corrompues et celles nécessitant un affinement supplémentaire. Cette approche de planification et de débruitage permet une reconstruction plus efficace pendant la génération en identifiant et en débruitant de manière itérative les corruptions dans l'ordre optimal. DDPD surpasse les méthodes traditionnelles de diffusion de masque uniquement débruiteur, obtenant des résultats supérieurs sur des référentiels de modélisation de langage tels que text8, OpenWebText, et la génération basée sur les jetons sur ImageNet 256 fois 256. Notamment, en modélisation de langage, DDPD réduit significativement l'écart de performance entre les méthodes basées sur la diffusion et autorégressives en termes de perplexité générative. Le code est disponible sur https://github.com/liusulin/DDPD.
English
Discrete diffusion has achieved state-of-the-art performance, outperforming
or approaching autoregressive models on standard benchmarks. In this work, we
introduce Discrete Diffusion with Planned Denoising (DDPD), a novel framework
that separates the generation process into two models: a planner and a
denoiser. At inference time, the planner selects which positions to denoise
next by identifying the most corrupted positions in need of denoising,
including both initially corrupted and those requiring additional refinement.
This plan-and-denoise approach enables more efficient reconstruction during
generation by iteratively identifying and denoising corruptions in the optimal
order. DDPD outperforms traditional denoiser-only mask diffusion methods,
achieving superior results on language modeling benchmarks such as text8,
OpenWebText, and token-based generation on ImageNet 256 times 256. Notably,
in language modeling, DDPD significantly reduces the performance gap between
diffusion-based and autoregressive methods in terms of generative perplexity.
Code is available at https://github.com/liusulin/DDPD.Summary
AI-Generated Summary