Causale Diffusie Transformers voor Generatieve Modellering
Causal Diffusion Transformers for Generative Modeling
December 16, 2024
Auteurs: Chaorui Deng, Deyao Zh, Kunchang Li, Shi Guan, Haoqi Fan
cs.AI
Samenvatting
We introduceren Causale Diffusie als de autoregressieve (AR) tegenhanger van Diffusiemodellen. Het is een raamwerk voor het voorspellen van volgende tokens dat vriendelijk is voor zowel discrete als continue modaliteiten en compatibel is met bestaande modellen voor het voorspellen van volgende tokens zoals LLaMA en GPT. Terwijl recente werken proberen diffusie te combineren met AR-modellen, tonen we aan dat het introduceren van sequentiële factorisatie in een diffusiemodel aanzienlijk de prestaties kan verbeteren en een soepele overgang tussen AR- en diffusiegeneratiemodi mogelijk maakt. Daarom stellen we CausalFusion voor - een decoder-only transformer die gegevens dual-factoriseert over sequentiële tokens en diffusieruisniveaus, wat leidt tot state-of-the-art resultaten op de ImageNet generatie benchmark, terwijl het ook profiteert van het AR-voordeel om een willekeurig aantal tokens te genereren voor in-context redenering. We demonstreren verder de multimodale mogelijkheden van CausalFusion door middel van een gezamenlijk model voor beeldgeneratie en bijschriften, en tonen de mogelijkheid van CausalFusion voor zero-shot in-context beeldmanipulaties. We hopen dat dit werk de gemeenschap een fris perspectief kan bieden op het trainen van multimodale modellen over discrete en continue data.
English
We introduce Causal Diffusion as the autoregressive (AR) counterpart of
Diffusion models. It is a next-token(s) forecasting framework that is friendly
to both discrete and continuous modalities and compatible with existing
next-token prediction models like LLaMA and GPT. While recent works attempt to
combine diffusion with AR models, we show that introducing sequential
factorization to a diffusion model can substantially improve its performance
and enables a smooth transition between AR and diffusion generation modes.
Hence, we propose CausalFusion - a decoder-only transformer that
dual-factorizes data across sequential tokens and diffusion noise levels,
leading to state-of-the-art results on the ImageNet generation benchmark while
also enjoying the AR advantage of generating an arbitrary number of tokens for
in-context reasoning. We further demonstrate CausalFusion's multimodal
capabilities through a joint image generation and captioning model, and
showcase CausalFusion's ability for zero-shot in-context image manipulations.
We hope that this work could provide the community with a fresh perspective on
training multimodal models over discrete and continuous data.