Denk terwijl je genereert: Discrete Diffusie met Geplande Denoising
Think While You Generate: Discrete Diffusion with Planned Denoising
October 8, 2024
Auteurs: Sulin Liu, Juno Nam, Andrew Campbell, Hannes Stärk, Yilun Xu, Tommi Jaakkola, Rafael Gómez-Bombarelli
cs.AI
Samenvatting
Discrete diffusie heeft state-of-the-art prestaties behaald, waarbij het autoregressieve modellen overtreft of benadert op standaard benchmarks. In dit werk introduceren we Discrete Diffusie met Geplande Denoising (DDPD), een nieuw raamwerk dat het generatieproces opsplitst in twee modellen: een planner en een denoiser. Tijdens inferentie selecteert de planner welke posities als volgende moeten worden gedenoised door de meest aangetaste posities te identificeren die denoising nodig hebben, inclusief zowel aanvankelijk aangetaste als die extra verfijning vereisen. Deze plan-en-denoise benadering maakt efficiëntere reconstructie mogelijk tijdens generatie door corrumpties iteratief te identificeren en te denoisen in de optimale volgorde. DDPD overtreft traditionele denoiser-only masker diffusie methoden, met superieure resultaten op taalmodelleringsbenchmarks zoals text8, OpenWebText, en token-gebaseerde generatie op ImageNet 256 keer 256. Opmerkelijk is dat DDPD in taalmodellering aanzienlijk de prestatiekloof verkleint tussen diffusie-gebaseerde en autoregressieve methoden wat betreft generatieve perplexiteit. De code is beschikbaar op https://github.com/liusulin/DDPD.
English
Discrete diffusion has achieved state-of-the-art performance, outperforming
or approaching autoregressive models on standard benchmarks. In this work, we
introduce Discrete Diffusion with Planned Denoising (DDPD), a novel framework
that separates the generation process into two models: a planner and a
denoiser. At inference time, the planner selects which positions to denoise
next by identifying the most corrupted positions in need of denoising,
including both initially corrupted and those requiring additional refinement.
This plan-and-denoise approach enables more efficient reconstruction during
generation by iteratively identifying and denoising corruptions in the optimal
order. DDPD outperforms traditional denoiser-only mask diffusion methods,
achieving superior results on language modeling benchmarks such as text8,
OpenWebText, and token-based generation on ImageNet 256 times 256. Notably,
in language modeling, DDPD significantly reduces the performance gap between
diffusion-based and autoregressive methods in terms of generative perplexity.
Code is available at https://github.com/liusulin/DDPD.Summary
AI-Generated Summary