Transformadores de Difusão Causal para Modelagem Generativa
Causal Diffusion Transformers for Generative Modeling
December 16, 2024
Autores: Chaorui Deng, Deyao Zh, Kunchang Li, Shi Guan, Haoqi Fan
cs.AI
Resumo
Apresentamos a Difusão Causal como o equivalente autoregressivo (AR) dos modelos de Difusão. É um framework de previsão do próximo token que é amigável tanto para modalidades discretas quanto contínuas e compatível com modelos existentes de previsão do próximo token como LLaMA e GPT. Enquanto trabalhos recentes tentam combinar difusão com modelos AR, mostramos que a introdução da fatorização sequencial a um modelo de difusão pode melhorar substancialmente seu desempenho e permite uma transição suave entre os modos de geração AR e de difusão. Portanto, propomos o CausalFusion - um transformador apenas decodificador que fatoriza duplamente os dados em tokens sequenciais e níveis de ruído de difusão, resultando em resultados de ponta no benchmark de geração do ImageNet, ao mesmo tempo em que desfruta da vantagem AR de gerar um número arbitrário de tokens para raciocínio contextual. Demonstramos ainda as capacidades multimodais do CausalFusion por meio de um modelo conjunto de geração de imagem e legenda, e exibimos a capacidade do CausalFusion para manipulações de imagem em contexto sem necessidade de treinamento. Esperamos que este trabalho possa fornecer à comunidade uma nova perspectiva sobre o treinamento de modelos multimodais em dados discretos e contínuos.
English
We introduce Causal Diffusion as the autoregressive (AR) counterpart of
Diffusion models. It is a next-token(s) forecasting framework that is friendly
to both discrete and continuous modalities and compatible with existing
next-token prediction models like LLaMA and GPT. While recent works attempt to
combine diffusion with AR models, we show that introducing sequential
factorization to a diffusion model can substantially improve its performance
and enables a smooth transition between AR and diffusion generation modes.
Hence, we propose CausalFusion - a decoder-only transformer that
dual-factorizes data across sequential tokens and diffusion noise levels,
leading to state-of-the-art results on the ImageNet generation benchmark while
also enjoying the AR advantage of generating an arbitrary number of tokens for
in-context reasoning. We further demonstrate CausalFusion's multimodal
capabilities through a joint image generation and captioning model, and
showcase CausalFusion's ability for zero-shot in-context image manipulations.
We hope that this work could provide the community with a fresh perspective on
training multimodal models over discrete and continuous data.Summary
AI-Generated Summary