ChatPaper.aiChatPaper

Причинные диффузионные трансформеры для генеративного моделирования

Causal Diffusion Transformers for Generative Modeling

December 16, 2024
Авторы: Chaorui Deng, Deyao Zh, Kunchang Li, Shi Guan, Haoqi Fan
cs.AI

Аннотация

Мы представляем Causal Diffusion как авторегрессионный (AR) аналог моделей Диффузии. Это фреймворк прогнозирования следующего токена(ов), который дружелюбен как к дискретным, так и к непрерывным модальностям, и совместим с существующими моделями прогнозирования следующего токена, такими как LLaMA и GPT. В то время как недавние работы пытаются объединить диффузию с AR моделями, мы показываем, что введение последовательной факторизации в модель диффузии может значительно улучшить ее производительность и обеспечить плавный переход между режимами генерации AR и диффузии. Таким образом, мы предлагаем CausalFusion - декодерный трансформер, который двойно факторизует данные по последовательным токенам и уровням шума диффузии, что приводит к лучшим результатам на бенчмарке генерации ImageNet, а также позволяет использовать преимущества AR для генерации произвольного количества токенов для контекстного рассуждения. Мы также демонстрируем мультимодальные возможности CausalFusion через совместную модель генерации изображений и подписей, а также показываем способность CausalFusion к манипуляциям изображениями в контексте без предварительного обучения. Мы надеемся, что данная работа сможет предоставить сообществу новый взгляд на обучение мультимодельных моделей на дискретных и непрерывных данных.
English
We introduce Causal Diffusion as the autoregressive (AR) counterpart of Diffusion models. It is a next-token(s) forecasting framework that is friendly to both discrete and continuous modalities and compatible with existing next-token prediction models like LLaMA and GPT. While recent works attempt to combine diffusion with AR models, we show that introducing sequential factorization to a diffusion model can substantially improve its performance and enables a smooth transition between AR and diffusion generation modes. Hence, we propose CausalFusion - a decoder-only transformer that dual-factorizes data across sequential tokens and diffusion noise levels, leading to state-of-the-art results on the ImageNet generation benchmark while also enjoying the AR advantage of generating an arbitrary number of tokens for in-context reasoning. We further demonstrate CausalFusion's multimodal capabilities through a joint image generation and captioning model, and showcase CausalFusion's ability for zero-shot in-context image manipulations. We hope that this work could provide the community with a fresh perspective on training multimodal models over discrete and continuous data.

Summary

AI-Generated Summary

PDF233December 17, 2024