Diffusion Forcing: Voorspelling van het volgende token ontmoet volledige-sequentie diffusie
Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion
July 1, 2024
Auteurs: Boyuan Chen, Diego Marti Monso, Yilun Du, Max Simchowitz, Russ Tedrake, Vincent Sitzmann
cs.AI
Samenvatting
Dit artikel introduceert Diffusion Forcing, een nieuw trainingsparadigma waarbij een diffusiemodel wordt getraind om een set tokens te denoisen met onafhankelijke ruisniveaus per token. We passen Diffusion Forcing toe op sequentiële generatieve modellering door een causaal next-token voorspellingsmodel te trainen om één of meerdere toekomstige tokens te genereren zonder de vorige tokens volledig te diffunderen. Onze aanpak combineert de sterke punten van next-token voorspellingsmodellen, zoals generatie van variabele lengte, met de sterke punten van volledige sequentie-diffusiemodellen, zoals de mogelijkheid om sampling te sturen naar gewenste trajecten. Onze methode biedt een reeks aanvullende mogelijkheden, zoals (1) het uitrollen van sequenties van continue tokens, zoals video, met lengtes die verder gaan dan de trainingshorizon, waarbij baseline-methoden divergeren, en (2) nieuwe sampling- en stuurmethoden die uniek profiteren van de variabele horizon en causale architectuur van Diffusion Forcing, en die leiden tot aanzienlijke prestatieverbeteringen in besluitvormings- en plannings taken. Naast het empirische succes is onze methode bewezen een variatielower bound te optimaliseren op de waarschijnlijkheden van alle subreeksen van tokens die zijn getrokken uit de echte gezamenlijke verdeling. Projectwebsite: https://boyuan.space/diffusion-forcing/
English
This paper presents Diffusion Forcing, a new training paradigm where a
diffusion model is trained to denoise a set of tokens with independent
per-token noise levels. We apply Diffusion Forcing to sequence generative
modeling by training a causal next-token prediction model to generate one or
several future tokens without fully diffusing past ones. Our approach is shown
to combine the strengths of next-token prediction models, such as
variable-length generation, with the strengths of full-sequence diffusion
models, such as the ability to guide sampling to desirable trajectories. Our
method offers a range of additional capabilities, such as (1) rolling-out
sequences of continuous tokens, such as video, with lengths past the training
horizon, where baselines diverge and (2) new sampling and guiding schemes that
uniquely profit from Diffusion Forcing's variable-horizon and causal
architecture, and which lead to marked performance gains in decision-making and
planning tasks. In addition to its empirical success, our method is proven to
optimize a variational lower bound on the likelihoods of all subsequences of
tokens drawn from the true joint distribution. Project website:
https://boyuan.space/diffusion-forcing/