ACDiT:自己回帰条件付きモデリングとディフュージョントランスフォーマーの補間
ACDiT: Interpolating Autoregressive Conditional Modeling and Diffusion Transformer
December 10, 2024
著者: Jinyi Hu, Shengding Hu, Yuxuan Song, Yufei Huang, Mingxuan Wang, Hao Zhou, Zhiyuan Liu, Wei-Ying Ma, Maosong Sun
cs.AI
要旨
最近、包括的なマルチモーダルモデルへの関心の急増により、異なるモダリティの統合が必要とされています。ただし、その統合は異なる手法に苦しんでいます。連続的なビジュアル生成には、テキスト領域の自己回帰モデリングとは異なるものの、完全シーケンス拡散ベースのアプローチが必要です。私たちは、過去の決定論的な経験に基づいて未来を予測する自己回帰モデリングが、ビジュアル生成モデルおよび潜在的な統合マルチモーダルモデルの両方を開発する上で重要であると考えています。本論文では、自己回帰モデリングと完全パラメータ拡散の間の補間を行い、ビジュアル情報をモデル化することを探求します。その中心には、ブロックサイズが拡散の場合、つまり自己回帰ユニットのサイズが柔軟に調整できるACDiT、すなわち自己回帰ブロックごとの条件付き拡散トランスフォーマーを提案します。ACDiTは、トークン単位の自己回帰と完全シーケンス拡散の間を補間するために、トレーニング中にSkip-Causal Attention Mask(SCAM)を作成するだけで実装が容易です。推論中、拡散のノイズ除去と自己回帰デコーディングの間を繰り返すプロセスが、KV-Cacheを十分に活用できます。ACDiTの画像およびビデオ生成タスクでの効果を検証します。また、自己回帰モデリングの恩恵を受けたことを示し、ACDiTは拡散目標で訓練されているにもかかわらず、ビジュアル理解タスクでシームレスに使用できることを実証します。自己回帰モデリングと拡散のトレードオフの分析は、ACDiTが長期的なビジュアル生成タスクで使用される潜在能力を示しています。これらの強みは、将来の統合モデルのバックボーンとして有望であると言えます。
English
The recent surge of interest in comprehensive multimodal models has
necessitated the unification of diverse modalities. However, the unification
suffers from disparate methodologies. Continuous visual generation necessitates
the full-sequence diffusion-based approach, despite its divergence from the
autoregressive modeling in the text domain. We posit that autoregressive
modeling, i.e., predicting the future based on past deterministic experience,
remains crucial in developing both a visual generation model and a potential
unified multimodal model. In this paper, we explore an interpolation between
the autoregressive modeling and full-parameters diffusion to model visual
information. At its core, we present ACDiT, an Autoregressive blockwise
Conditional Diffusion Transformer, where the block size of diffusion, i.e., the
size of autoregressive units, can be flexibly adjusted to interpolate between
token-wise autoregression and full-sequence diffusion. ACDiT is easy to
implement, as simple as creating a Skip-Causal Attention Mask (SCAM) during
training. During inference, the process iterates between diffusion denoising
and autoregressive decoding that can make full use of KV-Cache. We verify the
effectiveness of ACDiT on image and video generation tasks. We also demonstrate
that benefitted from autoregressive modeling, ACDiT can be seamlessly used in
visual understanding tasks despite being trained on the diffusion objective.
The analysis of the trade-off between autoregressive modeling and diffusion
demonstrates the potential of ACDiT to be used in long-horizon visual
generation tasks. These strengths make it promising as the backbone of future
unified models.Summary
AI-Generated Summary