DropletVideo:時空間的一貫性を探るためのデータセットとアプローチによるビデオ生成DropletVideo: A Dataset and Approach to Explore Integral Spatio-Temporal
Consistent Video Generation
時空間的一貫性は、映像生成における重要な研究テーマである。質の高い生成映像セグメントは、プロットの妥当性と一貫性を保証すると同時に、視点の変化に伴うオブジェクトやシーンの視覚的一貫性を維持しなければならない。これまでの研究、特にオープンソースプロジェクトでは、時間的または空間的一貫性、あるいはそれらの基本的な組み合わせに主眼が置かれてきた。例えば、プロンプト後にカメラの動きの説明を追加するが、その動きの結果を制約しないといった手法が用いられてきた。しかし、カメラの動きによってシーンに新しいオブジェクトが導入されたり、既存のオブジェクトが消えたりする可能性があり、それによって先行する物語が重なり影響を受けることがある。特にカメラの動きが多い映像では、複数のプロット間の相互作用がますます複雑になる。本論文では、プロットの進行とカメラ技術の相乗効果、および先行する内容が後続の生成に及ぼす長期的な影響を考慮した、統合的な時空間的一貫性を導入し、検証する。我々の研究は、データセットの構築からモデルの開発までを網羅している。まず、動的なカメラモーションとオブジェクトのアクションを特徴とする1000万本の映像からなるDropletVideo-10Mデータセットを構築した。各映像には平均206語のキャプションが付与されており、様々なカメラの動きとプロットの展開が詳細に記述されている。その後、映像生成において時空間的一貫性を保持するのに優れたDropletVideoモデルを開発し、トレーニングした。DropletVideoデータセットとモデルはhttps://dropletx.github.ioで公開されている。