Forzado de Difusión: Predicción de Próxima Palabra se Encuentra con Difusión de Secuencia Completa
Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion
July 1, 2024
Autores: Boyuan Chen, Diego Marti Monso, Yilun Du, Max Simchowitz, Russ Tedrake, Vincent Sitzmann
cs.AI
Resumen
Este artículo presenta Forzado de Difusión, un nuevo paradigma de entrenamiento donde un modelo de difusión se entrena para desenruido un conjunto de tokens con niveles de ruido independientes por token. Aplicamos Forzado de Difusión a la modelización generativa de secuencias mediante el entrenamiento de un modelo causal de predicción del siguiente token para generar uno o varios tokens futuros sin difundir completamente los pasados. Se demuestra que nuestro enfoque combina las fortalezas de los modelos de predicción del siguiente token, como la generación de longitud variable, con las fortalezas de los modelos de difusión de secuencia completa, como la capacidad de guiar el muestreo hacia trayectorias deseables. Nuestro método ofrece una variedad de capacidades adicionales, como (1) desplegar secuencias de tokens continuos, como video, con longitudes más allá del horizonte de entrenamiento, donde los puntos de referencia divergen y (2) nuevos esquemas de muestreo y guía que se benefician de manera única de la arquitectura causal y de horizonte variable de Forzado de Difusión, lo que resulta en mejoras significativas en tareas de toma de decisiones y planificación. Además de su éxito empírico, se demuestra que nuestro método optimiza un límite inferior variacional en las probabilidades de todas las subsecuencias de tokens extraídos de la verdadera distribución conjunta. Sitio web del proyecto: https://boyuan.space/diffusion-forcing/
English
This paper presents Diffusion Forcing, a new training paradigm where a
diffusion model is trained to denoise a set of tokens with independent
per-token noise levels. We apply Diffusion Forcing to sequence generative
modeling by training a causal next-token prediction model to generate one or
several future tokens without fully diffusing past ones. Our approach is shown
to combine the strengths of next-token prediction models, such as
variable-length generation, with the strengths of full-sequence diffusion
models, such as the ability to guide sampling to desirable trajectories. Our
method offers a range of additional capabilities, such as (1) rolling-out
sequences of continuous tokens, such as video, with lengths past the training
horizon, where baselines diverge and (2) new sampling and guiding schemes that
uniquely profit from Diffusion Forcing's variable-horizon and causal
architecture, and which lead to marked performance gains in decision-making and
planning tasks. In addition to its empirical success, our method is proven to
optimize a variational lower bound on the likelihoods of all subsequences of
tokens drawn from the true joint distribution. Project website:
https://boyuan.space/diffusion-forcing/Summary
AI-Generated Summary