Transformadores de Difusão Causal para Modelagem Generativa

Resumo

Apresentamos a Difusão Causal como o equivalente autoregressivo (AR) dos modelos de Difusão. É um framework de previsão do próximo token que é amigável tanto para modalidades discretas quanto contínuas e compatível com modelos existentes de previsão do próximo token como LLaMA e GPT. Enquanto trabalhos recentes tentam combinar difusão com modelos AR, mostramos que a introdução da fatorização sequencial a um modelo de difusão pode melhorar substancialmente seu desempenho e permite uma transição suave entre os modos de geração AR e de difusão. Portanto, propomos o CausalFusion - um transformador apenas decodificador que fatoriza duplamente os dados em tokens sequenciais e níveis de ruído de difusão, resultando em resultados de ponta no benchmark de geração do ImageNet, ao mesmo tempo em que desfruta da vantagem AR de gerar um número arbitrário de tokens para raciocínio contextual. Demonstramos ainda as capacidades multimodais do CausalFusion por meio de um modelo conjunto de geração de imagem e legenda, e exibimos a capacidade do CausalFusion para manipulações de imagem em contexto sem necessidade de treinamento. Esperamos que este trabalho possa fornecer à comunidade uma nova perspectiva sobre o treinamento de modelos multimodais em dados discretos e contínuos.

English

We introduce Causal Diffusion as the autoregressive (AR) counterpart of Diffusion models. It is a next-token(s) forecasting framework that is friendly to both discrete and continuous modalities and compatible with existing next-token prediction models like LLaMA and GPT. While recent works attempt to combine diffusion with AR models, we show that introducing sequential factorization to a diffusion model can substantially improve its performance and enables a smooth transition between AR and diffusion generation modes. Hence, we propose CausalFusion - a decoder-only transformer that dual-factorizes data across sequential tokens and diffusion noise levels, leading to state-of-the-art results on the ImageNet generation benchmark while also enjoying the AR advantage of generating an arbitrary number of tokens for in-context reasoning. We further demonstrate CausalFusion's multimodal capabilities through a joint image generation and captioning model, and showcase CausalFusion's ability for zero-shot in-context image manipulations. We hope that this work could provide the community with a fresh perspective on training multimodal models over discrete and continuous data.

Transformadores de Difusão Causal para Modelagem Generativa

Causal Diffusion Transformers for Generative Modeling

Resumo

Support