ACDiT : Interpolation de la modélisation conditionnelle autorégressive et du transformateur de diffusion
ACDiT: Interpolating Autoregressive Conditional Modeling and Diffusion Transformer
December 10, 2024
Auteurs: Jinyi Hu, Shengding Hu, Yuxuan Song, Yufei Huang, Mingxuan Wang, Hao Zhou, Zhiyuan Liu, Wei-Ying Ma, Maosong Sun
cs.AI
Résumé
La récente vague d'intérêt pour les modèles multimodaux complets a rendu nécessaire l'unification de modalités diverses. Cependant, cette unification souffre de méthodologies disparates. La génération visuelle continue nécessite une approche basée sur la diffusion de séquence complète, malgré sa divergence par rapport à la modélisation autorégressive dans le domaine du texte. Nous soutenons que la modélisation autorégressive, c'est-à-dire prédire l'avenir en se basant sur une expérience passée déterministe, reste cruciale pour développer à la fois un modèle de génération visuelle et un modèle multimodal unifié potentiel. Dans cet article, nous explorons une interpolation entre la modélisation autorégressive et la diffusion de paramètres complets pour modéliser l'information visuelle. Au cœur de notre approche, nous présentons ACDiT, un Transformer de Diffusion Conditionnelle par blocs Autorégressifs, où la taille du bloc de diffusion, c'est-à-dire la taille des unités autorégressives, peut être ajustée de manière flexible pour interpoler entre l'autorégression au niveau du token et la diffusion de séquence complète. ACDiT est facile à mettre en œuvre, aussi simple que de créer un masque d'attention causale sautée (SCAM) lors de l'entraînement. Lors de l'inférence, le processus itère entre le débruitage par diffusion et le décodage autorégressif qui peut tirer pleinement parti du KV-Cache. Nous vérifions l'efficacité d'ACDiT sur des tâches de génération d'images et de vidéos. Nous démontrons également qu'en bénéficiant de la modélisation autorégressive, ACDiT peut être utilisé de manière transparente dans des tâches de compréhension visuelle malgré son entraînement sur l'objectif de diffusion. L'analyse du compromis entre la modélisation autorégressive et la diffusion démontre le potentiel d'ACDiT à être utilisé dans des tâches de génération visuelle à long terme. Ces forces le rendent prometteur en tant que colonne vertébrale des futurs modèles unifiés.
English
The recent surge of interest in comprehensive multimodal models has
necessitated the unification of diverse modalities. However, the unification
suffers from disparate methodologies. Continuous visual generation necessitates
the full-sequence diffusion-based approach, despite its divergence from the
autoregressive modeling in the text domain. We posit that autoregressive
modeling, i.e., predicting the future based on past deterministic experience,
remains crucial in developing both a visual generation model and a potential
unified multimodal model. In this paper, we explore an interpolation between
the autoregressive modeling and full-parameters diffusion to model visual
information. At its core, we present ACDiT, an Autoregressive blockwise
Conditional Diffusion Transformer, where the block size of diffusion, i.e., the
size of autoregressive units, can be flexibly adjusted to interpolate between
token-wise autoregression and full-sequence diffusion. ACDiT is easy to
implement, as simple as creating a Skip-Causal Attention Mask (SCAM) during
training. During inference, the process iterates between diffusion denoising
and autoregressive decoding that can make full use of KV-Cache. We verify the
effectiveness of ACDiT on image and video generation tasks. We also demonstrate
that benefitted from autoregressive modeling, ACDiT can be seamlessly used in
visual understanding tasks despite being trained on the diffusion objective.
The analysis of the trade-off between autoregressive modeling and diffusion
demonstrates the potential of ACDiT to be used in long-horizon visual
generation tasks. These strengths make it promising as the backbone of future
unified models.Summary
AI-Generated Summary