Denken während des Generierens: Diskrete Diffusion mit geplanter Rauschunterdrückung
Think While You Generate: Discrete Diffusion with Planned Denoising
October 8, 2024
Autoren: Sulin Liu, Juno Nam, Andrew Campbell, Hannes Stärk, Yilun Xu, Tommi Jaakkola, Rafael Gómez-Bombarelli
cs.AI
Zusammenfassung
Die diskrete Diffusion hat eine Spitzenleistung erreicht, die autoregressive Modelle auf Standard-Benchmarks übertrifft oder annähert. In dieser Arbeit stellen wir die Discrete Diffusion mit geplanter Denoising (DDPD) vor, ein neuartiges Framework, das den Generierungsprozess in zwei Modelle unterteilt: einen Planer und einen Denoiser. Zur Inferenzzeit wählt der Planer die Positionen aus, die als nächstes denoisiert werden sollen, indem er die am stärksten korrupten Positionen identifiziert, die einer Denoising-Behandlung bedürfen, einschließlich der anfänglich korrupten und derjenigen, die zusätzliche Verfeinerung erfordern. Dieser Plan-und-Denoise-Ansatz ermöglicht eine effizientere Rekonstruktion während der Generierung, indem Korruptionen iterativ in optimaler Reihenfolge identifiziert und denoisiert werden. DDPD übertrifft herkömmliche Mask-Diffusion-Methoden, die nur Denoiser verwenden, und erzielt überlegene Ergebnisse bei Benchmarks für Sprachmodellierung wie text8, OpenWebText und tokenbasierte Generierung auf ImageNet 256 mal 256. Bemerkenswert ist, dass DDPD in der Sprachmodellierung den Leistungsunterschied zwischen diffusionsbasierten und autoregressiven Methoden in Bezug auf die generative Perplexität signifikant reduziert. Der Code ist unter https://github.com/liusulin/DDPD verfügbar.
English
Discrete diffusion has achieved state-of-the-art performance, outperforming
or approaching autoregressive models on standard benchmarks. In this work, we
introduce Discrete Diffusion with Planned Denoising (DDPD), a novel framework
that separates the generation process into two models: a planner and a
denoiser. At inference time, the planner selects which positions to denoise
next by identifying the most corrupted positions in need of denoising,
including both initially corrupted and those requiring additional refinement.
This plan-and-denoise approach enables more efficient reconstruction during
generation by iteratively identifying and denoising corruptions in the optimal
order. DDPD outperforms traditional denoiser-only mask diffusion methods,
achieving superior results on language modeling benchmarks such as text8,
OpenWebText, and token-based generation on ImageNet 256 times 256. Notably,
in language modeling, DDPD significantly reduces the performance gap between
diffusion-based and autoregressive methods in terms of generative perplexity.
Code is available at https://github.com/liusulin/DDPD.Summary
AI-Generated Summary