拡散強制:次トークン予測と全系列拡散の融合
Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion
July 1, 2024
著者: Boyuan Chen, Diego Marti Monso, Yilun Du, Max Simchowitz, Russ Tedrake, Vincent Sitzmann
cs.AI
要旨
本論文では、Diffusion Forcingという新しいトレーニングパラダイムを提案する。このパラダイムでは、拡散モデルが独立したトークンごとのノイズレベルを持つトークンのセットをノイズ除去するように訓練される。我々は、Diffusion Forcingをシーケンス生成モデリングに適用し、因果的な次トークン予測モデルを訓練して、過去のトークンを完全に拡散させずに1つまたは複数の将来のトークンを生成する。このアプローチは、可変長生成などの次トークン予測モデルの強みと、望ましい軌道にサンプリングを誘導する能力などの完全シーケンス拡散モデルの強みを組み合わせることが示されている。我々の手法は、以下のような追加の能力を提供する:(1) ビデオなどの連続トークンのシーケンスを、トレーニング範囲を超えた長さで展開し、ベースラインが発散する場合でも、(2) Diffusion Forcingの可変範囲と因果的アーキテクチャから独自に利益を得る新しいサンプリングおよび誘導スキームを提供し、意思決定および計画タスクにおいて顕著な性能向上をもたらす。経験的な成功に加えて、我々の手法は、真の結合分布から抽出されたすべての部分シーケンスの尤度に対する変分下限を最適化することが証明されている。プロジェクトウェブサイト: https://boyuan.space/diffusion-forcing/
English
This paper presents Diffusion Forcing, a new training paradigm where a
diffusion model is trained to denoise a set of tokens with independent
per-token noise levels. We apply Diffusion Forcing to sequence generative
modeling by training a causal next-token prediction model to generate one or
several future tokens without fully diffusing past ones. Our approach is shown
to combine the strengths of next-token prediction models, such as
variable-length generation, with the strengths of full-sequence diffusion
models, such as the ability to guide sampling to desirable trajectories. Our
method offers a range of additional capabilities, such as (1) rolling-out
sequences of continuous tokens, such as video, with lengths past the training
horizon, where baselines diverge and (2) new sampling and guiding schemes that
uniquely profit from Diffusion Forcing's variable-horizon and causal
architecture, and which lead to marked performance gains in decision-making and
planning tasks. In addition to its empirical success, our method is proven to
optimize a variational lower bound on the likelihoods of all subsequences of
tokens drawn from the true joint distribution. Project website:
https://boyuan.space/diffusion-forcing/Summary
AI-Generated Summary