Forçamento por Difusão: Previsão do Próximo Token Encontra Difusão de Sequência Completa
Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion
July 1, 2024
Autores: Boyuan Chen, Diego Marti Monso, Yilun Du, Max Simchowitz, Russ Tedrake, Vincent Sitzmann
cs.AI
Resumo
Este artigo apresenta Forçamento por Difusão, um novo paradigma de treinamento onde um modelo de difusão é treinado para remover ruídos de um conjunto de tokens com níveis de ruído independentes por token. Aplicamos o Forçamento por Difusão à modelagem generativa de sequências, treinando um modelo causal de previsão do próximo token para gerar um ou vários tokens futuros sem difundir completamente os tokens passados. Nosso método combina as vantagens dos modelos de previsão do próximo token, como geração de comprimentos variáveis, com as vantagens dos modelos de difusão de sequência completa, como a capacidade de guiar a amostragem para trajetórias desejáveis. Nossa abordagem oferece uma variedade de capacidades adicionais, como (1) a expansão de sequências de tokens contínuos, como vídeos, com comprimentos além do horizonte de treinamento, onde as referências divergem e (2) novos esquemas de amostragem e orientação que se beneficiam de forma única da arquitetura causal e de horizonte variável do Forçamento por Difusão, resultando em ganhos de desempenho significativos em tarefas de tomada de decisão e planejamento. Além do sucesso empírico, nosso método é comprovado por otimizar um limite inferior variacional nas probabilidades de todas as subsequências de tokens retiradas da verdadeira distribuição conjunta. Website do projeto: https://boyuan.space/diffusion-forcing/
English
This paper presents Diffusion Forcing, a new training paradigm where a
diffusion model is trained to denoise a set of tokens with independent
per-token noise levels. We apply Diffusion Forcing to sequence generative
modeling by training a causal next-token prediction model to generate one or
several future tokens without fully diffusing past ones. Our approach is shown
to combine the strengths of next-token prediction models, such as
variable-length generation, with the strengths of full-sequence diffusion
models, such as the ability to guide sampling to desirable trajectories. Our
method offers a range of additional capabilities, such as (1) rolling-out
sequences of continuous tokens, such as video, with lengths past the training
horizon, where baselines diverge and (2) new sampling and guiding schemes that
uniquely profit from Diffusion Forcing's variable-horizon and causal
architecture, and which lead to marked performance gains in decision-making and
planning tasks. In addition to its empirical success, our method is proven to
optimize a variational lower bound on the likelihoods of all subsequences of
tokens drawn from the true joint distribution. Project website:
https://boyuan.space/diffusion-forcing/