DropletVideo:時空間的一貫性を探るためのデータセットとアプローチによるビデオ生成
DropletVideo: A Dataset and Approach to Explore Integral Spatio-Temporal Consistent Video Generation
March 8, 2025
著者: Runze Zhang, Guoguang Du, Xiaochuan Li, Qi Jia, Liang Jin, Lu Liu, Jingjing Wang, Cong Xu, Zhenhua Guo, Yaqian Zhao, Xiaoli Gong, Rengang Li, Baoyu Fan
cs.AI
要旨
時空間的一貫性は、映像生成における重要な研究テーマである。質の高い生成映像セグメントは、プロットの妥当性と一貫性を保証すると同時に、視点の変化に伴うオブジェクトやシーンの視覚的一貫性を維持しなければならない。これまでの研究、特にオープンソースプロジェクトでは、時間的または空間的一貫性、あるいはそれらの基本的な組み合わせに主眼が置かれてきた。例えば、プロンプト後にカメラの動きの説明を追加するが、その動きの結果を制約しないといった手法が用いられてきた。しかし、カメラの動きによってシーンに新しいオブジェクトが導入されたり、既存のオブジェクトが消えたりする可能性があり、それによって先行する物語が重なり影響を受けることがある。特にカメラの動きが多い映像では、複数のプロット間の相互作用がますます複雑になる。本論文では、プロットの進行とカメラ技術の相乗効果、および先行する内容が後続の生成に及ぼす長期的な影響を考慮した、統合的な時空間的一貫性を導入し、検証する。我々の研究は、データセットの構築からモデルの開発までを網羅している。まず、動的なカメラモーションとオブジェクトのアクションを特徴とする1000万本の映像からなるDropletVideo-10Mデータセットを構築した。各映像には平均206語のキャプションが付与されており、様々なカメラの動きとプロットの展開が詳細に記述されている。その後、映像生成において時空間的一貫性を保持するのに優れたDropletVideoモデルを開発し、トレーニングした。DropletVideoデータセットとモデルはhttps://dropletx.github.ioで公開されている。
English
Spatio-temporal consistency is a critical research topic in video generation.
A qualified generated video segment must ensure plot plausibility and coherence
while maintaining visual consistency of objects and scenes across varying
viewpoints. Prior research, especially in open-source projects, primarily
focuses on either temporal or spatial consistency, or their basic combination,
such as appending a description of a camera movement after a prompt without
constraining the outcomes of this movement. However, camera movement may
introduce new objects to the scene or eliminate existing ones, thereby
overlaying and affecting the preceding narrative. Especially in videos with
numerous camera movements, the interplay between multiple plots becomes
increasingly complex. This paper introduces and examines integral
spatio-temporal consistency, considering the synergy between plot progression
and camera techniques, and the long-term impact of prior content on subsequent
generation. Our research encompasses dataset construction through to the
development of the model. Initially, we constructed a DropletVideo-10M dataset,
which comprises 10 million videos featuring dynamic camera motion and object
actions. Each video is annotated with an average caption of 206 words,
detailing various camera movements and plot developments. Following this, we
developed and trained the DropletVideo model, which excels in preserving
spatio-temporal coherence during video generation. The DropletVideo dataset and
model are accessible at https://dropletx.github.io.Summary
AI-Generated Summary