ChatPaper.aiChatPaper

DropletVideo:時空間的一貫性を探るためのデータセットとアプローチによるビデオ生成

DropletVideo: A Dataset and Approach to Explore Integral Spatio-Temporal Consistent Video Generation

March 8, 2025
著者: Runze Zhang, Guoguang Du, Xiaochuan Li, Qi Jia, Liang Jin, Lu Liu, Jingjing Wang, Cong Xu, Zhenhua Guo, Yaqian Zhao, Xiaoli Gong, Rengang Li, Baoyu Fan
cs.AI

要旨

時空間的一貫性は、映像生成における重要な研究テーマである。質の高い生成映像セグメントは、プロットの妥当性と一貫性を保証すると同時に、視点の変化に伴うオブジェクトやシーンの視覚的一貫性を維持しなければならない。これまでの研究、特にオープンソースプロジェクトでは、時間的または空間的一貫性、あるいはそれらの基本的な組み合わせに主眼が置かれてきた。例えば、プロンプト後にカメラの動きの説明を追加するが、その動きの結果を制約しないといった手法が用いられてきた。しかし、カメラの動きによってシーンに新しいオブジェクトが導入されたり、既存のオブジェクトが消えたりする可能性があり、それによって先行する物語が重なり影響を受けることがある。特にカメラの動きが多い映像では、複数のプロット間の相互作用がますます複雑になる。本論文では、プロットの進行とカメラ技術の相乗効果、および先行する内容が後続の生成に及ぼす長期的な影響を考慮した、統合的な時空間的一貫性を導入し、検証する。我々の研究は、データセットの構築からモデルの開発までを網羅している。まず、動的なカメラモーションとオブジェクトのアクションを特徴とする1000万本の映像からなるDropletVideo-10Mデータセットを構築した。各映像には平均206語のキャプションが付与されており、様々なカメラの動きとプロットの展開が詳細に記述されている。その後、映像生成において時空間的一貫性を保持するのに優れたDropletVideoモデルを開発し、トレーニングした。DropletVideoデータセットとモデルはhttps://dropletx.github.ioで公開されている。
English
Spatio-temporal consistency is a critical research topic in video generation. A qualified generated video segment must ensure plot plausibility and coherence while maintaining visual consistency of objects and scenes across varying viewpoints. Prior research, especially in open-source projects, primarily focuses on either temporal or spatial consistency, or their basic combination, such as appending a description of a camera movement after a prompt without constraining the outcomes of this movement. However, camera movement may introduce new objects to the scene or eliminate existing ones, thereby overlaying and affecting the preceding narrative. Especially in videos with numerous camera movements, the interplay between multiple plots becomes increasingly complex. This paper introduces and examines integral spatio-temporal consistency, considering the synergy between plot progression and camera techniques, and the long-term impact of prior content on subsequent generation. Our research encompasses dataset construction through to the development of the model. Initially, we constructed a DropletVideo-10M dataset, which comprises 10 million videos featuring dynamic camera motion and object actions. Each video is annotated with an average caption of 206 words, detailing various camera movements and plot developments. Following this, we developed and trained the DropletVideo model, which excels in preserving spatio-temporal coherence during video generation. The DropletVideo dataset and model are accessible at https://dropletx.github.io.

Summary

AI-Generated Summary

PDF1382March 18, 2025