DropletVideo : Un ensemble de données et une approche pour explorer la génération vidéo intégralement cohérente spatio-temporelleDropletVideo: A Dataset and Approach to Explore Integral Spatio-Temporal
Consistent Video Generation
La cohérence spatio-temporelle est un sujet de recherche crucial dans la génération de vidéos. Un segment vidéo généré de qualité doit garantir la plausibilité et la cohérence du scénario tout en maintenant la cohérence visuelle des objets et des scÚnes à travers différents points de vue. Les recherches antérieures, en particulier dans les projets open source, se concentrent principalement soit sur la cohérence temporelle, soit sur la cohérence spatiale, ou sur une combinaison basique des deux, comme l'ajout d'une description d'un mouvement de caméra aprÚs une instruction sans contraindre les résultats de ce mouvement. Cependant, un mouvement de caméra peut introduire de nouveaux objets dans la scÚne ou en éliminer des existants, superposant et affectant ainsi le récit précédent. En particulier dans les vidéos avec de nombreux mouvements de caméra, l'interaction entre plusieurs scénarios devient de plus en plus complexe. Cet article introduit et examine la cohérence spatio-temporelle intégrale, en considérant la synergie entre la progression du scénario et les techniques de caméra, ainsi que l'impact à long terme du contenu précédent sur la génération ultérieure. Notre recherche englobe la construction de jeux de données jusqu'au développement du modÚle. Initialement, nous avons construit un jeu de données DropletVideo-10M, qui comprend 10 millions de vidéos mettant en scÚne des mouvements dynamiques de caméra et des actions d'objets. Chaque vidéo est annotée avec une description moyenne de 206 mots, détaillant divers mouvements de caméra et développements de scénario. Par la suite, nous avons développé et entraßné le modÚle DropletVideo, qui excelle à préserver la cohérence spatio-temporelle lors de la génération de vidéos. Le jeu de données et le modÚle DropletVideo sont accessibles à l'adresse https://dropletx.github.io.