ChatPaper.aiChatPaper

ACDiT: Interpoleren van autoregressieve conditionele modellering en diffusie-transformator

ACDiT: Interpolating Autoregressive Conditional Modeling and Diffusion Transformer

December 10, 2024
Auteurs: Jinyi Hu, Shengding Hu, Yuxuan Song, Yufei Huang, Mingxuan Wang, Hao Zhou, Zhiyuan Liu, Wei-Ying Ma, Maosong Sun
cs.AI

Samenvatting

De recente toename van interesse in uitgebreide multimodale modellen heeft de noodzaak van de vereniging van diverse modaliteiten met zich meegebracht. Echter, de vereniging lijdt onder uiteenlopende methodologieën. Continue visuele generatie vereist de benadering op basis van volledige sequentiediffusie, ondanks de afwijking van de autoregressieve modellering in het tekst domein. Wij stellen dat autoregressieve modellering, d.w.z. het voorspellen van de toekomst op basis van deterministische ervaring uit het verleden, cruciaal blijft bij het ontwikkelen van zowel een visueel generatiemodel als een potentieel verenigd multimodaal model. In dit artikel verkennen we een interpolatie tussen de autoregressieve modellering en volledige-parameters diffusie om visuele informatie te modelleren. In de kern presenteren we ACDiT, een Autoregressief bloksgewijs Conditioneel Diffusie Transformer, waarbij de blokgrootte van diffusie, d.w.z. de grootte van autoregressieve eenheden, flexibel kan worden aangepast om te interpoleren tussen token-gebaseerde autoregressie en volledige-sequentiediffusie. ACDiT is eenvoudig te implementeren, zo simpel als het creëren van een Skip-Causale Aandachtsmasker (SCAM) tijdens training. Tijdens inferentie doorloopt het proces tussen diffusie denoising en autoregressieve decodering die volledig gebruik kan maken van KV-Cache. We bevestigen de effectiviteit van ACDiT bij beeld- en videogeneratietaken. We tonen ook aan dat ACDiT, dankzij autoregressieve modellering, naadloos kan worden gebruikt in visuele begripstaken ondanks dat het is getraind op het diffusiedoel. De analyse van de afweging tussen autoregressieve modellering en diffusie toont het potentieel van ACDiT aan om te worden gebruikt in visuele generatietaken met een lange horizon. Deze sterke punten maken het veelbelovend als de ruggengraat van toekomstige verenigde modellen.
English
The recent surge of interest in comprehensive multimodal models has necessitated the unification of diverse modalities. However, the unification suffers from disparate methodologies. Continuous visual generation necessitates the full-sequence diffusion-based approach, despite its divergence from the autoregressive modeling in the text domain. We posit that autoregressive modeling, i.e., predicting the future based on past deterministic experience, remains crucial in developing both a visual generation model and a potential unified multimodal model. In this paper, we explore an interpolation between the autoregressive modeling and full-parameters diffusion to model visual information. At its core, we present ACDiT, an Autoregressive blockwise Conditional Diffusion Transformer, where the block size of diffusion, i.e., the size of autoregressive units, can be flexibly adjusted to interpolate between token-wise autoregression and full-sequence diffusion. ACDiT is easy to implement, as simple as creating a Skip-Causal Attention Mask (SCAM) during training. During inference, the process iterates between diffusion denoising and autoregressive decoding that can make full use of KV-Cache. We verify the effectiveness of ACDiT on image and video generation tasks. We also demonstrate that benefitted from autoregressive modeling, ACDiT can be seamlessly used in visual understanding tasks despite being trained on the diffusion objective. The analysis of the trade-off between autoregressive modeling and diffusion demonstrates the potential of ACDiT to be used in long-horizon visual generation tasks. These strengths make it promising as the backbone of future unified models.
PDF312December 11, 2024