Transformadores de Difusión Causal para Modelado Generativo
Causal Diffusion Transformers for Generative Modeling
December 16, 2024
Autores: Chaorui Deng, Deyao Zh, Kunchang Li, Shi Guan, Haoqi Fan
cs.AI
Resumen
Presentamos la Difusión Causal como el equivalente autorregresivo (AR) de los modelos de Difusión. Es un marco de predicción del siguiente token que es amigable tanto para modalidades discretas como continuas y compatible con modelos existentes de predicción del siguiente token como LLaMA y GPT. Mientras que trabajos recientes intentan combinar la difusión con modelos AR, mostramos que introducir factorización secuencial a un modelo de difusión puede mejorar sustancialmente su rendimiento y permite una transición fluida entre los modos de generación AR y de difusión. Por lo tanto, proponemos CausalFusion, un transformador de solo decodificador que dual-factoriza los datos entre tokens secuenciales y niveles de ruido de difusión, lo que resulta en resultados de vanguardia en la evaluación de generación de ImageNet, al mismo tiempo que aprovecha la ventaja AR de generar un número arbitrario de tokens para razonamiento en contexto. Además, demostramos las capacidades multimodales de CausalFusion a través de un modelo conjunto de generación de imágenes y subtitulado, y exhibimos la capacidad de CausalFusion para manipulaciones de imágenes en contexto sin necesidad de entrenamiento previo. Esperamos que este trabajo pueda ofrecer a la comunidad una nueva perspectiva sobre el entrenamiento de modelos multimodales sobre datos discretos y continuos.
English
We introduce Causal Diffusion as the autoregressive (AR) counterpart of
Diffusion models. It is a next-token(s) forecasting framework that is friendly
to both discrete and continuous modalities and compatible with existing
next-token prediction models like LLaMA and GPT. While recent works attempt to
combine diffusion with AR models, we show that introducing sequential
factorization to a diffusion model can substantially improve its performance
and enables a smooth transition between AR and diffusion generation modes.
Hence, we propose CausalFusion - a decoder-only transformer that
dual-factorizes data across sequential tokens and diffusion noise levels,
leading to state-of-the-art results on the ImageNet generation benchmark while
also enjoying the AR advantage of generating an arbitrary number of tokens for
in-context reasoning. We further demonstrate CausalFusion's multimodal
capabilities through a joint image generation and captioning model, and
showcase CausalFusion's ability for zero-shot in-context image manipulations.
We hope that this work could provide the community with a fresh perspective on
training multimodal models over discrete and continuous data.Summary
AI-Generated Summary