CineMaster : Un cadre conscient de la 3D et contrôlable pour la génération de vidéos à partir de texte cinématographique
CineMaster: A 3D-Aware and Controllable Framework for Cinematic Text-to-Video Generation
February 12, 2025
Auteurs: Qinghe Wang, Yawen Luo, Xiaoyu Shi, Xu Jia, Huchuan Lu, Tianfan Xue, Xintao Wang, Pengfei Wan, Di Zhang, Kun Gai
cs.AI
Résumé
Dans ce travail, nous présentons CineMaster, un nouveau cadre pour la génération de texte en vidéo conscient de la 3D et contrôlable. Notre objectif est de donner aux utilisateurs une capacité de contrôle comparable à celle des réalisateurs professionnels : placement précis des objets dans la scène, manipulation flexible à la fois des objets et de la caméra dans l'espace 3D, et contrôle intuitif de la disposition des images rendues. Pour y parvenir, CineMaster fonctionne en deux étapes. Dans la première étape, nous concevons un flux de travail interactif qui permet aux utilisateurs de construire intuitivement des signaux conditionnels conscients de la 3D en positionnant des boîtes englobantes d'objets et en définissant des mouvements de caméra dans l'espace 3D. Dans la deuxième étape, ces signaux de contrôle - comprenant des cartes de profondeur rendues, des trajectoires de caméra et des étiquettes de classe d'objets - servent de guide pour un modèle de diffusion de texte en vidéo, garantissant la génération du contenu vidéo souhaité par l'utilisateur. De plus, pour surmonter la rareté des ensembles de données en conditions réelles avec des annotations de mouvement d'objets en 3D et de pose de caméra, nous établissons soigneusement un pipeline d'annotation de données automatisé qui extrait des boîtes englobantes en 3D et des trajectoires de caméra à partir de données vidéo à grande échelle. Des expériences qualitatives et quantitatives approfondies démontrent que CineMaster surpasse significativement les méthodes existantes et met en œuvre une génération de texte en vidéo consciente de la 3D remarquable. Page du projet : https://cinemaster-dev.github.io/.
English
In this work, we present CineMaster, a novel framework for 3D-aware and
controllable text-to-video generation. Our goal is to empower users with
comparable controllability as professional film directors: precise placement of
objects within the scene, flexible manipulation of both objects and camera in
3D space, and intuitive layout control over the rendered frames. To achieve
this, CineMaster operates in two stages. In the first stage, we design an
interactive workflow that allows users to intuitively construct 3D-aware
conditional signals by positioning object bounding boxes and defining camera
movements within the 3D space. In the second stage, these control
signals--comprising rendered depth maps, camera trajectories and object class
labels--serve as the guidance for a text-to-video diffusion model, ensuring to
generate the user-intended video content. Furthermore, to overcome the scarcity
of in-the-wild datasets with 3D object motion and camera pose annotations, we
carefully establish an automated data annotation pipeline that extracts 3D
bounding boxes and camera trajectories from large-scale video data. Extensive
qualitative and quantitative experiments demonstrate that CineMaster
significantly outperforms existing methods and implements prominent 3D-aware
text-to-video generation. Project page: https://cinemaster-dev.github.io/.Summary
AI-Generated Summary