VIMI: マルチモーダル指示によるビデオ生成の基盤付け
VIMI: Grounding Video Generation through Multi-modal Instruction
July 8, 2024
著者: Yuwei Fang, Willi Menapace, Aliaksandr Siarohin, Tsai-Shien Chen, Kuan-Chien Wang, Ivan Skorokhodov, Graham Neubig, Sergey Tulyakov
cs.AI
要旨
既存のテキストからビデオを生成する拡散モデルは、事前学習においてテキストのみのエンコーダに依存しています。この制約は、大規模なマルチモーダルプロンプトビデオデータセットの欠如に起因し、視覚的基盤の不足とマルチモーダル統合における汎用性と応用の制限を引き起こしています。この問題に対処するため、我々は検索手法を用いてコンテキスト内の例を所与のテキストプロンプトとペアリングし、大規模なマルチモーダルプロンプトデータセットを構築しました。その後、同一モデル内で多様なビデオ生成タスクを可能にするために、二段階のトレーニング戦略を採用しました。第一段階では、これらの拡張データセット上で事前学習を行うためのマルチモーダル条件付きビデオ生成フレームワークを提案し、基盤となるビデオ生成モデルを確立しました。第二段階では、第一段階のモデルをマルチモーダル命令を組み込んだ三つのビデオ生成タスクでファインチューニングしました。このプロセスにより、モデルの多様な入力とタスクを処理する能力がさらに洗練され、マルチモーダル情報のシームレスな統合が保証されます。この二段階のトレーニングプロセスを経て、VIMIはマルチモーダル理解能力を示し、提供された入力に基づいた文脈豊かでパーソナライズされたビデオを生成します(図1参照)。従来の視覚的基盤を持つビデオ生成手法と比較して、VIMIは大規模な動きを伴いながらも意味的制御を保持し、一貫性と時間的整合性のあるビデオを合成することができます。最後に、VIMIはUCF101ベンチマークにおいて、最先端のテキストからビデオを生成する結果を達成しました。
English
Existing text-to-video diffusion models rely solely on text-only encoders for
their pretraining. This limitation stems from the absence of large-scale
multimodal prompt video datasets, resulting in a lack of visual grounding and
restricting their versatility and application in multimodal integration. To
address this, we construct a large-scale multimodal prompt dataset by employing
retrieval methods to pair in-context examples with the given text prompts and
then utilize a two-stage training strategy to enable diverse video generation
tasks within the same model. In the first stage, we propose a multimodal
conditional video generation framework for pretraining on these augmented
datasets, establishing a foundational model for grounded video generation.
Secondly, we finetune the model from the first stage on three video generation
tasks, incorporating multi-modal instructions. This process further refines the
model's ability to handle diverse inputs and tasks, ensuring seamless
integration of multi-modal information. After this two-stage train-ing process,
VIMI demonstrates multimodal understanding capabilities, producing contextually
rich and personalized videos grounded in the provided inputs, as shown in
Figure 1. Compared to previous visual grounded video generation methods, VIMI
can synthesize consistent and temporally coherent videos with large motion
while retaining the semantic control. Lastly, VIMI also achieves
state-of-the-art text-to-video generation results on UCF101 benchmark.Summary
AI-Generated Summary