Diffusion Forcing : Prédiction du token suivant rencontre la diffusion de séquence complète
Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion
July 1, 2024
papers.authors: Boyuan Chen, Diego Marti Monso, Yilun Du, Max Simchowitz, Russ Tedrake, Vincent Sitzmann
cs.AI
papers.abstract
Cet article présente Diffusion Forcing, un nouveau paradigme d'entraînement dans lequel un modèle de diffusion est formé pour débruiter un ensemble de tokens avec des niveaux de bruit indépendants par token. Nous appliquons Diffusion Forcing à la modélisation générative de séquences en entraînant un modèle causal de prédiction du token suivant à générer un ou plusieurs tokens futurs sans diffuser complètement les tokens passés. Notre approche combine les forces des modèles de prédiction du token suivant, tels que la génération de longueur variable, avec les forces des modèles de diffusion de séquence complète, comme la capacité à guider l'échantillonnage vers des trajectoires souhaitables. Notre méthode offre une gamme de capacités supplémentaires, telles que (1) le déploiement de séquences de tokens continus, comme la vidéo, avec des longueurs dépassant l'horizon d'entraînement, où les modèles de référence divergent, et (2) de nouveaux schémas d'échantillonnage et de guidage qui profitent uniquement de l'architecture à horizon variable et causale de Diffusion Forcing, et qui conduisent à des gains de performance marqués dans les tâches de prise de décision et de planification. En plus de son succès empirique, notre méthode est prouvée pour optimiser une borne inférieure variationnelle sur les vraisemblances de toutes les sous-séquences de tokens tirées de la distribution conjointe réelle. Site web du projet : https://boyuan.space/diffusion-forcing/
English
This paper presents Diffusion Forcing, a new training paradigm where a
diffusion model is trained to denoise a set of tokens with independent
per-token noise levels. We apply Diffusion Forcing to sequence generative
modeling by training a causal next-token prediction model to generate one or
several future tokens without fully diffusing past ones. Our approach is shown
to combine the strengths of next-token prediction models, such as
variable-length generation, with the strengths of full-sequence diffusion
models, such as the ability to guide sampling to desirable trajectories. Our
method offers a range of additional capabilities, such as (1) rolling-out
sequences of continuous tokens, such as video, with lengths past the training
horizon, where baselines diverge and (2) new sampling and guiding schemes that
uniquely profit from Diffusion Forcing's variable-horizon and causal
architecture, and which lead to marked performance gains in decision-making and
planning tasks. In addition to its empirical success, our method is proven to
optimize a variational lower bound on the likelihoods of all subsequences of
tokens drawn from the true joint distribution. Project website:
https://boyuan.space/diffusion-forcing/