ChatPaper.aiChatPaper

Pensar Mientras Generas: Difusión Discreta con Desruido Planificado

Think While You Generate: Discrete Diffusion with Planned Denoising

October 8, 2024
Autores: Sulin Liu, Juno Nam, Andrew Campbell, Hannes Stärk, Yilun Xu, Tommi Jaakkola, Rafael Gómez-Bombarelli
cs.AI

Resumen

La difusión discreta ha logrado un rendimiento de vanguardia, superando o acercándose a los modelos autorregresivos en los benchmarks estándar. En este trabajo, presentamos la Difusión Discreta con Desruido Planificado (DDPD), un marco novedoso que separa el proceso de generación en dos modelos: un planificador y un desruidizador. En el momento de inferencia, el planificador selecciona qué posiciones desruidizar a continuación identificando las posiciones más corruptas que necesitan desruido, incluyendo tanto las inicialmente corruptas como aquellas que requieren refinamiento adicional. Este enfoque de planificación y desruido permite una reconstrucción más eficiente durante la generación al identificar y desruidizar de manera iterativa las corrupciones en el orden óptimo. DDPD supera a los métodos tradicionales de difusión de máscara solo desruidizadora, logrando resultados superiores en benchmarks de modelado de lenguaje como text8, OpenWebText y generación basada en tokens en ImageNet 256 veces 256. Es destacable que, en el modelado de lenguaje, DDPD reduce significativamente la brecha de rendimiento entre los métodos basados en difusión y los autorregresivos en términos de perplejidad generativa. El código está disponible en https://github.com/liusulin/DDPD.
English
Discrete diffusion has achieved state-of-the-art performance, outperforming or approaching autoregressive models on standard benchmarks. In this work, we introduce Discrete Diffusion with Planned Denoising (DDPD), a novel framework that separates the generation process into two models: a planner and a denoiser. At inference time, the planner selects which positions to denoise next by identifying the most corrupted positions in need of denoising, including both initially corrupted and those requiring additional refinement. This plan-and-denoise approach enables more efficient reconstruction during generation by iteratively identifying and denoising corruptions in the optimal order. DDPD outperforms traditional denoiser-only mask diffusion methods, achieving superior results on language modeling benchmarks such as text8, OpenWebText, and token-based generation on ImageNet 256 times 256. Notably, in language modeling, DDPD significantly reduces the performance gap between diffusion-based and autoregressive methods in terms of generative perplexity. Code is available at https://github.com/liusulin/DDPD.

Summary

AI-Generated Summary

PDF113November 16, 2024