DropletVideo : Un ensemble de données et une approche pour explorer la génération vidéo intégralement cohérente spatio-temporelle
DropletVideo: A Dataset and Approach to Explore Integral Spatio-Temporal Consistent Video Generation
March 8, 2025
Auteurs: Runze Zhang, Guoguang Du, Xiaochuan Li, Qi Jia, Liang Jin, Lu Liu, Jingjing Wang, Cong Xu, Zhenhua Guo, Yaqian Zhao, Xiaoli Gong, Rengang Li, Baoyu Fan
cs.AI
Résumé
La cohérence spatio-temporelle est un sujet de recherche crucial dans la génération de vidéos. Un segment vidéo généré de qualité doit garantir la plausibilité et la cohérence du scénario tout en maintenant la cohérence visuelle des objets et des scènes à travers différents points de vue. Les recherches antérieures, en particulier dans les projets open source, se concentrent principalement soit sur la cohérence temporelle, soit sur la cohérence spatiale, ou sur une combinaison basique des deux, comme l'ajout d'une description d'un mouvement de caméra après une instruction sans contraindre les résultats de ce mouvement. Cependant, un mouvement de caméra peut introduire de nouveaux objets dans la scène ou en éliminer des existants, superposant et affectant ainsi le récit précédent. En particulier dans les vidéos avec de nombreux mouvements de caméra, l'interaction entre plusieurs scénarios devient de plus en plus complexe. Cet article introduit et examine la cohérence spatio-temporelle intégrale, en considérant la synergie entre la progression du scénario et les techniques de caméra, ainsi que l'impact à long terme du contenu précédent sur la génération ultérieure. Notre recherche englobe la construction de jeux de données jusqu'au développement du modèle. Initialement, nous avons construit un jeu de données DropletVideo-10M, qui comprend 10 millions de vidéos mettant en scène des mouvements dynamiques de caméra et des actions d'objets. Chaque vidéo est annotée avec une description moyenne de 206 mots, détaillant divers mouvements de caméra et développements de scénario. Par la suite, nous avons développé et entraîné le modèle DropletVideo, qui excelle à préserver la cohérence spatio-temporelle lors de la génération de vidéos. Le jeu de données et le modèle DropletVideo sont accessibles à l'adresse https://dropletx.github.io.
English
Spatio-temporal consistency is a critical research topic in video generation.
A qualified generated video segment must ensure plot plausibility and coherence
while maintaining visual consistency of objects and scenes across varying
viewpoints. Prior research, especially in open-source projects, primarily
focuses on either temporal or spatial consistency, or their basic combination,
such as appending a description of a camera movement after a prompt without
constraining the outcomes of this movement. However, camera movement may
introduce new objects to the scene or eliminate existing ones, thereby
overlaying and affecting the preceding narrative. Especially in videos with
numerous camera movements, the interplay between multiple plots becomes
increasingly complex. This paper introduces and examines integral
spatio-temporal consistency, considering the synergy between plot progression
and camera techniques, and the long-term impact of prior content on subsequent
generation. Our research encompasses dataset construction through to the
development of the model. Initially, we constructed a DropletVideo-10M dataset,
which comprises 10 million videos featuring dynamic camera motion and object
actions. Each video is annotated with an average caption of 206 words,
detailing various camera movements and plot developments. Following this, we
developed and trained the DropletVideo model, which excels in preserving
spatio-temporal coherence during video generation. The DropletVideo dataset and
model are accessible at https://dropletx.github.io.Summary
AI-Generated Summary