ACDiT: Interpolando Modelado Condicional Autoregresivo y Transformador de Difusión
ACDiT: Interpolating Autoregressive Conditional Modeling and Diffusion Transformer
December 10, 2024
Autores: Jinyi Hu, Shengding Hu, Yuxuan Song, Yufei Huang, Mingxuan Wang, Hao Zhou, Zhiyuan Liu, Wei-Ying Ma, Maosong Sun
cs.AI
Resumen
El reciente aumento del interés en modelos multimodales integrales ha hecho necesario unificar modalidades diversas. Sin embargo, la unificación adolece de metodologías dispares. La generación visual continua requiere el enfoque de difusión de secuencia completa, a pesar de su divergencia del modelado autoregresivo en el dominio del texto. Sostenemos que el modelado autoregresivo, es decir, predecir el futuro basándose en experiencias pasadas determinísticas, sigue siendo crucial para desarrollar tanto un modelo de generación visual como un modelo multimodal unificado potencial. En este documento, exploramos una interpolación entre el modelado autoregresivo y la difusión de parámetros completos para modelar información visual. En su núcleo, presentamos ACDiT, un Transformador de Difusión Condicional Autoregresivo por Bloques, donde el tamaño del bloque de difusión, es decir, el tamaño de las unidades autoregresivas, se puede ajustar de forma flexible para interpolar entre la autoregresión a nivel de token y la difusión de secuencia completa. ACDiT es fácil de implementar, tan simple como crear una Máscara de Atención Causal Saltada (SCAM) durante el entrenamiento. Durante la inferencia, el proceso itera entre la eliminación de ruido por difusión y la decodificación autoregresiva que puede aprovechar al máximo la Memoria KV-Cache. Verificamos la efectividad de ACDiT en tareas de generación de imágenes y videos. También demostramos que, beneficiándose del modelado autoregresivo, ACDiT puede usarse sin problemas en tareas de comprensión visual a pesar de haber sido entrenado en el objetivo de difusión. El análisis del equilibrio entre el modelado autoregresivo y la difusión demuestra el potencial de ACDiT para ser utilizado en tareas de generación visual a largo plazo. Estas fortalezas lo hacen prometedor como la columna vertebral de futuros modelos unificados.
English
The recent surge of interest in comprehensive multimodal models has
necessitated the unification of diverse modalities. However, the unification
suffers from disparate methodologies. Continuous visual generation necessitates
the full-sequence diffusion-based approach, despite its divergence from the
autoregressive modeling in the text domain. We posit that autoregressive
modeling, i.e., predicting the future based on past deterministic experience,
remains crucial in developing both a visual generation model and a potential
unified multimodal model. In this paper, we explore an interpolation between
the autoregressive modeling and full-parameters diffusion to model visual
information. At its core, we present ACDiT, an Autoregressive blockwise
Conditional Diffusion Transformer, where the block size of diffusion, i.e., the
size of autoregressive units, can be flexibly adjusted to interpolate between
token-wise autoregression and full-sequence diffusion. ACDiT is easy to
implement, as simple as creating a Skip-Causal Attention Mask (SCAM) during
training. During inference, the process iterates between diffusion denoising
and autoregressive decoding that can make full use of KV-Cache. We verify the
effectiveness of ACDiT on image and video generation tasks. We also demonstrate
that benefitted from autoregressive modeling, ACDiT can be seamlessly used in
visual understanding tasks despite being trained on the diffusion objective.
The analysis of the trade-off between autoregressive modeling and diffusion
demonstrates the potential of ACDiT to be used in long-horizon visual
generation tasks. These strengths make it promising as the backbone of future
unified models.Summary
AI-Generated Summary