ChatPaper.aiChatPaper

Diffusionszwang: Vorhersage des nächsten Tokens trifft auf vollständige Sequenzdiffusion.

Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion

July 1, 2024
papers.authors: Boyuan Chen, Diego Marti Monso, Yilun Du, Max Simchowitz, Russ Tedrake, Vincent Sitzmann
cs.AI

papers.abstract

Dieses Papier stellt Diffusion Forcing vor, ein neues Schulungsparadigma, bei dem ein Diffusionsmodell darauf trainiert wird, eine Reihe von Tokens mit unabhängigen pro-Token Rauschniveaus zu denoisieren. Wir wenden Diffusion Forcing auf die sequenzielle generative Modellierung an, indem wir ein kausales nächstes Token-Vorhersagemodell schulen, um ein oder mehrere zukünftige Tokens zu generieren, ohne die vergangenen vollständig zu diffundieren. Unsere Methode kombiniert die Stärken von Modellen zur Vorhersage des nächsten Tokens, wie die Generierung variabler Längen, mit den Stärken von vollständigen Sequenzdiffusionsmodellen, wie der Fähigkeit, die Probenahme auf wünschenswerte Trajektorien zu lenken. Unser Ansatz bietet eine Reihe zusätzlicher Fähigkeiten, wie (1) das Ausrollen von Sequenzen kontinuierlicher Tokens, wie Videos, mit Längen über den Schulungshorizont hinaus, wo Baselines auseinanderlaufen, und (2) neue Probenahme- und Leitungsverfahren, die einzigartig von der variablen Horizont- und kausalen Architektur des Diffusion Forcing profitieren und zu deutlichen Leistungssteigerungen bei Entscheidungsfindungs- und Planungsaufgaben führen. Neben seinem empirischen Erfolg wurde nachgewiesen, dass unsere Methode eine Variationsschranke auf die Wahrscheinlichkeiten aller Teilsequenzen von Tokens optimiert, die aus der wahren gemeinsamen Verteilung gezogen wurden. Projektwebsite: https://boyuan.space/diffusion-forcing/
English
This paper presents Diffusion Forcing, a new training paradigm where a diffusion model is trained to denoise a set of tokens with independent per-token noise levels. We apply Diffusion Forcing to sequence generative modeling by training a causal next-token prediction model to generate one or several future tokens without fully diffusing past ones. Our approach is shown to combine the strengths of next-token prediction models, such as variable-length generation, with the strengths of full-sequence diffusion models, such as the ability to guide sampling to desirable trajectories. Our method offers a range of additional capabilities, such as (1) rolling-out sequences of continuous tokens, such as video, with lengths past the training horizon, where baselines diverge and (2) new sampling and guiding schemes that uniquely profit from Diffusion Forcing's variable-horizon and causal architecture, and which lead to marked performance gains in decision-making and planning tasks. In addition to its empirical success, our method is proven to optimize a variational lower bound on the likelihoods of all subsequences of tokens drawn from the true joint distribution. Project website: https://boyuan.space/diffusion-forcing/
PDF461November 28, 2024