ACDiT: Интерполяция авторегрессионного условного моделирования и трансформера диффузии
ACDiT: Interpolating Autoregressive Conditional Modeling and Diffusion Transformer
December 10, 2024
Авторы: Jinyi Hu, Shengding Hu, Yuxuan Song, Yufei Huang, Mingxuan Wang, Hao Zhou, Zhiyuan Liu, Wei-Ying Ma, Maosong Sun
cs.AI
Аннотация
Недавний всплеск интереса к комплексным мультимодальным моделям потребовал объединения различных модальностей. Однако это объединение страдает от различных методологий. Непрерывная визуальная генерация требует подхода на основе диффузии по полной последовательности, несмотря на его расхождение с авторегрессивным моделированием в текстовой области. Мы полагаем, что авторегрессивное моделирование, т.е. предсказание будущего на основе прошлого детерминированного опыта, остается ключевым при разработке как модели визуальной генерации, так и потенциальной объединенной мультимодальной модели. В данной статье мы исследуем интерполяцию между авторегрессивным моделированием и диффузией с полными параметрами для моделирования визуальной информации. В центре этого лежит ACDiT, Autoregressive блочный Conditional Diffusion Transformer, где размер блока диффузии, т.е. размер авторегрессивных блоков, может быть гибко настроен для интерполяции между авторегрессией по токенам и диффузией по полной последовательности. ACDiT легко реализуется, так же просто, как создание маски внимания Skip-Causal Attention Mask (SCAM) во время обучения. Во время вывода процесс перемещается между диффузионным шумоподавлением и авторегрессивным декодированием, что позволяет полностью использовать KV-Cache. Мы проверяем эффективность ACDiT на задачах генерации изображений и видео. Мы также демонстрируем, что благодаря авторегрессивному моделированию ACDiT может быть легко использован в задачах визуального понимания, несмотря на то, что он обучен на цели диффузии. Анализ компромисса между авторегрессивным моделированием и диффузией показывает потенциал ACDiT для использования в задачах долгосрочной визуальной генерации. Эти преимущества делают его многообещающим в качестве основы будущих объединенных моделей.
English
The recent surge of interest in comprehensive multimodal models has
necessitated the unification of diverse modalities. However, the unification
suffers from disparate methodologies. Continuous visual generation necessitates
the full-sequence diffusion-based approach, despite its divergence from the
autoregressive modeling in the text domain. We posit that autoregressive
modeling, i.e., predicting the future based on past deterministic experience,
remains crucial in developing both a visual generation model and a potential
unified multimodal model. In this paper, we explore an interpolation between
the autoregressive modeling and full-parameters diffusion to model visual
information. At its core, we present ACDiT, an Autoregressive blockwise
Conditional Diffusion Transformer, where the block size of diffusion, i.e., the
size of autoregressive units, can be flexibly adjusted to interpolate between
token-wise autoregression and full-sequence diffusion. ACDiT is easy to
implement, as simple as creating a Skip-Causal Attention Mask (SCAM) during
training. During inference, the process iterates between diffusion denoising
and autoregressive decoding that can make full use of KV-Cache. We verify the
effectiveness of ACDiT on image and video generation tasks. We also demonstrate
that benefitted from autoregressive modeling, ACDiT can be seamlessly used in
visual understanding tasks despite being trained on the diffusion objective.
The analysis of the trade-off between autoregressive modeling and diffusion
demonstrates the potential of ACDiT to be used in long-horizon visual
generation tasks. These strengths make it promising as the backbone of future
unified models.Summary
AI-Generated Summary