Transformadores de Difusión Causal para Modelado Generativo

Resumen

Presentamos la Difusión Causal como el equivalente autorregresivo (AR) de los modelos de Difusión. Es un marco de predicción del siguiente token que es amigable tanto para modalidades discretas como continuas y compatible con modelos existentes de predicción del siguiente token como LLaMA y GPT. Mientras que trabajos recientes intentan combinar la difusión con modelos AR, mostramos que introducir factorización secuencial a un modelo de difusión puede mejorar sustancialmente su rendimiento y permite una transición fluida entre los modos de generación AR y de difusión. Por lo tanto, proponemos CausalFusion, un transformador de solo decodificador que dual-factoriza los datos entre tokens secuenciales y niveles de ruido de difusión, lo que resulta en resultados de vanguardia en la evaluación de generación de ImageNet, al mismo tiempo que aprovecha la ventaja AR de generar un número arbitrario de tokens para razonamiento en contexto. Además, demostramos las capacidades multimodales de CausalFusion a través de un modelo conjunto de generación de imágenes y subtitulado, y exhibimos la capacidad de CausalFusion para manipulaciones de imágenes en contexto sin necesidad de entrenamiento previo. Esperamos que este trabajo pueda ofrecer a la comunidad una nueva perspectiva sobre el entrenamiento de modelos multimodales sobre datos discretos y continuos.

English

We introduce Causal Diffusion as the autoregressive (AR) counterpart of Diffusion models. It is a next-token(s) forecasting framework that is friendly to both discrete and continuous modalities and compatible with existing next-token prediction models like LLaMA and GPT. While recent works attempt to combine diffusion with AR models, we show that introducing sequential factorization to a diffusion model can substantially improve its performance and enables a smooth transition between AR and diffusion generation modes. Hence, we propose CausalFusion - a decoder-only transformer that dual-factorizes data across sequential tokens and diffusion noise levels, leading to state-of-the-art results on the ImageNet generation benchmark while also enjoying the AR advantage of generating an arbitrary number of tokens for in-context reasoning. We further demonstrate CausalFusion's multimodal capabilities through a joint image generation and captioning model, and showcase CausalFusion's ability for zero-shot in-context image manipulations. We hope that this work could provide the community with a fresh perspective on training multimodal models over discrete and continuous data.

Transformadores de Difusión Causal para Modelado Generativo

Causal Diffusion Transformers for Generative Modeling

Resumen

Support