拡散強制:次トークン予測と全系列拡散の融合Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion
本論文では、Diffusion Forcingという新しいトレーニングパラダイムを提案する。このパラダイムでは、拡散モデルが独立したトークンごとのノイズレベルを持つトークンのセットをノイズ除去するように訓練される。我々は、Diffusion Forcingをシーケンス生成モデリングに適用し、因果的な次トークン予測モデルを訓練して、過去のトークンを完全に拡散させずに1つまたは複数の将来のトークンを生成する。このアプローチは、可変長生成などの次トークン予測モデルの強みと、望ましい軌道にサンプリングを誘導する能力などの完全シーケンス拡散モデルの強みを組み合わせることが示されている。我々の手法は、以下のような追加の能力を提供する:(1) ビデオなどの連続トークンのシーケンスを、トレーニング範囲を超えた長さで展開し、ベースラインが発散する場合でも、(2) Diffusion Forcingの可変範囲と因果的アーキテクチャから独自に利益を得る新しいサンプリングおよび誘導スキームを提供し、意思決定および計画タスクにおいて顕著な性能向上をもたらす。経験的な成功に加えて、我々の手法は、真の結合分布から抽出されたすべての部分シーケンスの尤度に対する変分下限を最適化することが証明されている。プロジェクトウェブサイト: https://boyuan.space/diffusion-forcing/