Diffusion Forcing: La Predizione del Token Successivo Incontra la Diffusione su Sequenza Completa
Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion
July 1, 2024
Autori: Boyuan Chen, Diego Marti Monso, Yilun Du, Max Simchowitz, Russ Tedrake, Vincent Sitzmann
cs.AI
Abstract
Questo articolo presenta Diffusion Forcing, un nuovo paradigma di addestramento in cui un modello di diffusione viene allenato per rimuovere il rumore da un insieme di token con livelli di rumore indipendenti per ciascun token. Applichiamo Diffusion Forcing alla modellazione generativa di sequenze addestrando un modello causale di previsione del token successivo a generare uno o più token futuri senza diffondere completamente quelli passati. Il nostro approccio dimostra di combinare i punti di forza dei modelli di previsione del token successivo, come la generazione a lunghezza variabile, con i punti di forza dei modelli di diffusione a sequenza completa, come la capacità di guidare il campionamento verso traiettorie desiderabili. Il nostro metodo offre una gamma di capacità aggiuntive, come (1) la generazione di sequenze continue di token, come video, con lunghezze oltre l'orizzonte di addestramento, dove i metodi di base divergono, e (2) nuovi schemi di campionamento e guida che traggono vantaggio unico dall'architettura a orizzonte variabile e causale di Diffusion Forcing, portando a significativi miglioramenti nelle prestazioni in compiti di decision-making e pianificazione. Oltre al successo empirico, il nostro metodo è dimostrato ottimizzare un limite inferiore variazionale sulle probabilità di tutte le sottosequenze di token estratte dalla distribuzione congiunta vera. Sito web del progetto: https://boyuan.space/diffusion-forcing/
English
This paper presents Diffusion Forcing, a new training paradigm where a
diffusion model is trained to denoise a set of tokens with independent
per-token noise levels. We apply Diffusion Forcing to sequence generative
modeling by training a causal next-token prediction model to generate one or
several future tokens without fully diffusing past ones. Our approach is shown
to combine the strengths of next-token prediction models, such as
variable-length generation, with the strengths of full-sequence diffusion
models, such as the ability to guide sampling to desirable trajectories. Our
method offers a range of additional capabilities, such as (1) rolling-out
sequences of continuous tokens, such as video, with lengths past the training
horizon, where baselines diverge and (2) new sampling and guiding schemes that
uniquely profit from Diffusion Forcing's variable-horizon and causal
architecture, and which lead to marked performance gains in decision-making and
planning tasks. In addition to its empirical success, our method is proven to
optimize a variational lower bound on the likelihoods of all subsequences of
tokens drawn from the true joint distribution. Project website:
https://boyuan.space/diffusion-forcing/