ACDiT: Interpolando Modelagem Condicional Autoregressiva e Transformador de Difusão
ACDiT: Interpolating Autoregressive Conditional Modeling and Diffusion Transformer
December 10, 2024
Autores: Jinyi Hu, Shengding Hu, Yuxuan Song, Yufei Huang, Mingxuan Wang, Hao Zhou, Zhiyuan Liu, Wei-Ying Ma, Maosong Sun
cs.AI
Resumo
O recente aumento de interesse em modelos multimodais abrangentes tem exigido a unificação de diversas modalidades. No entanto, a unificação sofre de metodologias díspares. A geração visual contínua requer a abordagem baseada em difusão de sequência completa, apesar de sua divergência do modelamento autoregressivo no domínio do texto. Sustentamos que o modelamento autoregressivo, ou seja, prever o futuro com base em experiências passadas determinísticas, continua sendo crucial no desenvolvimento tanto de um modelo de geração visual quanto de um potencial modelo multimodal unificado. Neste artigo, exploramos uma interpolação entre o modelamento autoregressivo e a difusão de parâmetros completos para modelar informações visuais. Em sua essência, apresentamos o ACDiT, um Transformador de Difusão Condicional em Blocos Autoregressivos, onde o tamanho do bloco de difusão, ou seja, o tamanho das unidades autoregressivas, pode ser ajustado de forma flexível para interpolar entre a autoregressão por token e a difusão de sequência completa. O ACDiT é fácil de implementar, tão simples quanto criar uma Máscara de Atenção Causal Pulada (SCAM) durante o treinamento. Durante a inferência, o processo itera entre a desnoização por difusão e a decodificação autoregressiva que pode fazer uso total do KV-Cache. Verificamos a eficácia do ACDiT em tarefas de geração de imagens e vídeos. Também demonstramos que, beneficiado pelo modelamento autoregressivo, o ACDiT pode ser usado facilmente em tarefas de compreensão visual, apesar de ter sido treinado no objetivo de difusão. A análise do equilíbrio entre o modelamento autoregressivo e a difusão demonstra o potencial do ACDiT para ser usado em tarefas de geração visual de longo prazo. Essas qualidades o tornam promissor como a espinha dorsal de futuros modelos unificados.
English
The recent surge of interest in comprehensive multimodal models has
necessitated the unification of diverse modalities. However, the unification
suffers from disparate methodologies. Continuous visual generation necessitates
the full-sequence diffusion-based approach, despite its divergence from the
autoregressive modeling in the text domain. We posit that autoregressive
modeling, i.e., predicting the future based on past deterministic experience,
remains crucial in developing both a visual generation model and a potential
unified multimodal model. In this paper, we explore an interpolation between
the autoregressive modeling and full-parameters diffusion to model visual
information. At its core, we present ACDiT, an Autoregressive blockwise
Conditional Diffusion Transformer, where the block size of diffusion, i.e., the
size of autoregressive units, can be flexibly adjusted to interpolate between
token-wise autoregression and full-sequence diffusion. ACDiT is easy to
implement, as simple as creating a Skip-Causal Attention Mask (SCAM) during
training. During inference, the process iterates between diffusion denoising
and autoregressive decoding that can make full use of KV-Cache. We verify the
effectiveness of ACDiT on image and video generation tasks. We also demonstrate
that benefitted from autoregressive modeling, ACDiT can be seamlessly used in
visual understanding tasks despite being trained on the diffusion objective.
The analysis of the trade-off between autoregressive modeling and diffusion
demonstrates the potential of ACDiT to be used in long-horizon visual
generation tasks. These strengths make it promising as the backbone of future
unified models.Summary
AI-Generated Summary