ChatPaper.aiChatPaper

ACDiT: Interpolando Modelado Condicional Autoregresivo y Transformador de Difusión

ACDiT: Interpolating Autoregressive Conditional Modeling and Diffusion Transformer

December 10, 2024
Autores: Jinyi Hu, Shengding Hu, Yuxuan Song, Yufei Huang, Mingxuan Wang, Hao Zhou, Zhiyuan Liu, Wei-Ying Ma, Maosong Sun
cs.AI

Resumen

El reciente aumento del interés en modelos multimodales integrales ha hecho necesario unificar modalidades diversas. Sin embargo, la unificación adolece de metodologías dispares. La generación visual continua requiere el enfoque de difusión de secuencia completa, a pesar de su divergencia del modelado autoregresivo en el dominio del texto. Sostenemos que el modelado autoregresivo, es decir, predecir el futuro basándose en experiencias pasadas determinísticas, sigue siendo crucial para desarrollar tanto un modelo de generación visual como un modelo multimodal unificado potencial. En este documento, exploramos una interpolación entre el modelado autoregresivo y la difusión de parámetros completos para modelar información visual. En su núcleo, presentamos ACDiT, un Transformador de Difusión Condicional Autoregresivo por Bloques, donde el tamaño del bloque de difusión, es decir, el tamaño de las unidades autoregresivas, se puede ajustar de forma flexible para interpolar entre la autoregresión a nivel de token y la difusión de secuencia completa. ACDiT es fácil de implementar, tan simple como crear una Máscara de Atención Causal Saltada (SCAM) durante el entrenamiento. Durante la inferencia, el proceso itera entre la eliminación de ruido por difusión y la decodificación autoregresiva que puede aprovechar al máximo la Memoria KV-Cache. Verificamos la efectividad de ACDiT en tareas de generación de imágenes y videos. También demostramos que, beneficiándose del modelado autoregresivo, ACDiT puede usarse sin problemas en tareas de comprensión visual a pesar de haber sido entrenado en el objetivo de difusión. El análisis del equilibrio entre el modelado autoregresivo y la difusión demuestra el potencial de ACDiT para ser utilizado en tareas de generación visual a largo plazo. Estas fortalezas lo hacen prometedor como la columna vertebral de futuros modelos unificados.
English
The recent surge of interest in comprehensive multimodal models has necessitated the unification of diverse modalities. However, the unification suffers from disparate methodologies. Continuous visual generation necessitates the full-sequence diffusion-based approach, despite its divergence from the autoregressive modeling in the text domain. We posit that autoregressive modeling, i.e., predicting the future based on past deterministic experience, remains crucial in developing both a visual generation model and a potential unified multimodal model. In this paper, we explore an interpolation between the autoregressive modeling and full-parameters diffusion to model visual information. At its core, we present ACDiT, an Autoregressive blockwise Conditional Diffusion Transformer, where the block size of diffusion, i.e., the size of autoregressive units, can be flexibly adjusted to interpolate between token-wise autoregression and full-sequence diffusion. ACDiT is easy to implement, as simple as creating a Skip-Causal Attention Mask (SCAM) during training. During inference, the process iterates between diffusion denoising and autoregressive decoding that can make full use of KV-Cache. We verify the effectiveness of ACDiT on image and video generation tasks. We also demonstrate that benefitted from autoregressive modeling, ACDiT can be seamlessly used in visual understanding tasks despite being trained on the diffusion objective. The analysis of the trade-off between autoregressive modeling and diffusion demonstrates the potential of ACDiT to be used in long-horizon visual generation tasks. These strengths make it promising as the backbone of future unified models.

Summary

AI-Generated Summary

PDF322December 11, 2024