ACDiT: Interpoleren van autoregressieve conditionele modellering en diffusie-transformator
ACDiT: Interpolating Autoregressive Conditional Modeling and Diffusion Transformer
December 10, 2024
Auteurs: Jinyi Hu, Shengding Hu, Yuxuan Song, Yufei Huang, Mingxuan Wang, Hao Zhou, Zhiyuan Liu, Wei-Ying Ma, Maosong Sun
cs.AI
Samenvatting
De recente toename van interesse in uitgebreide multimodale modellen heeft de noodzaak van de vereniging van diverse modaliteiten met zich meegebracht. Echter, de vereniging lijdt onder uiteenlopende methodologieën. Continue visuele generatie vereist de benadering op basis van volledige sequentiediffusie, ondanks de afwijking van de autoregressieve modellering in het tekst domein. Wij stellen dat autoregressieve modellering, d.w.z. het voorspellen van de toekomst op basis van deterministische ervaring uit het verleden, cruciaal blijft bij het ontwikkelen van zowel een visueel generatiemodel als een potentieel verenigd multimodaal model. In dit artikel verkennen we een interpolatie tussen de autoregressieve modellering en volledige-parameters diffusie om visuele informatie te modelleren. In de kern presenteren we ACDiT, een Autoregressief bloksgewijs Conditioneel Diffusie Transformer, waarbij de blokgrootte van diffusie, d.w.z. de grootte van autoregressieve eenheden, flexibel kan worden aangepast om te interpoleren tussen token-gebaseerde autoregressie en volledige-sequentiediffusie. ACDiT is eenvoudig te implementeren, zo simpel als het creëren van een Skip-Causale Aandachtsmasker (SCAM) tijdens training. Tijdens inferentie doorloopt het proces tussen diffusie denoising en autoregressieve decodering die volledig gebruik kan maken van KV-Cache. We bevestigen de effectiviteit van ACDiT bij beeld- en videogeneratietaken. We tonen ook aan dat ACDiT, dankzij autoregressieve modellering, naadloos kan worden gebruikt in visuele begripstaken ondanks dat het is getraind op het diffusiedoel. De analyse van de afweging tussen autoregressieve modellering en diffusie toont het potentieel van ACDiT aan om te worden gebruikt in visuele generatietaken met een lange horizon. Deze sterke punten maken het veelbelovend als de ruggengraat van toekomstige verenigde modellen.
English
The recent surge of interest in comprehensive multimodal models has
necessitated the unification of diverse modalities. However, the unification
suffers from disparate methodologies. Continuous visual generation necessitates
the full-sequence diffusion-based approach, despite its divergence from the
autoregressive modeling in the text domain. We posit that autoregressive
modeling, i.e., predicting the future based on past deterministic experience,
remains crucial in developing both a visual generation model and a potential
unified multimodal model. In this paper, we explore an interpolation between
the autoregressive modeling and full-parameters diffusion to model visual
information. At its core, we present ACDiT, an Autoregressive blockwise
Conditional Diffusion Transformer, where the block size of diffusion, i.e., the
size of autoregressive units, can be flexibly adjusted to interpolate between
token-wise autoregression and full-sequence diffusion. ACDiT is easy to
implement, as simple as creating a Skip-Causal Attention Mask (SCAM) during
training. During inference, the process iterates between diffusion denoising
and autoregressive decoding that can make full use of KV-Cache. We verify the
effectiveness of ACDiT on image and video generation tasks. We also demonstrate
that benefitted from autoregressive modeling, ACDiT can be seamlessly used in
visual understanding tasks despite being trained on the diffusion objective.
The analysis of the trade-off between autoregressive modeling and diffusion
demonstrates the potential of ACDiT to be used in long-horizon visual
generation tasks. These strengths make it promising as the backbone of future
unified models.