CineMaster: Een 3D-bewust en controleerbaar kader voor het genereren van filmische tekst-naar-video.
CineMaster: A 3D-Aware and Controllable Framework for Cinematic Text-to-Video Generation
February 12, 2025
Auteurs: Qinghe Wang, Yawen Luo, Xiaoyu Shi, Xu Jia, Huchuan Lu, Tianfan Xue, Xintao Wang, Pengfei Wan, Di Zhang, Kun Gai
cs.AI
Samenvatting
In dit werk presenteren we CineMaster, een nieuw raamwerk voor het genereren van tekst-naar-video met 3D-bewustzijn en controleerbaarheid. Ons doel is om gebruikers te voorzien van vergelijkbare controle als professionele filmregisseurs: nauwkeurige plaatsing van objecten binnen de scène, flexibele manipulatie van zowel objecten als camera in 3D-ruimte, en intuïtieve lay-outcontrole over de gerenderde frames. Om dit te bereiken, werkt CineMaster in twee fasen. In de eerste fase ontwerpen we een interactieve workflow die gebruikers in staat stelt om intuïtief 3D-bewuste conditionele signalen te construeren door objectbegrenzingskaders te positioneren en camerabewegingen te definiëren binnen de 3D-ruimte. In de tweede fase dienen deze controle signalen - bestaande uit gerenderde dieptekaarten, cameratrajecten en objectklasse labels - als leidraad voor een tekst-naar-video diffusiemodel, zodat het door de gebruiker bedoelde videomateriaal wordt gegenereerd. Bovendien, om de schaarste aan in-the-wild datasets met 3D-objectbeweging en camerapositie-annotaties te overwinnen, stellen we zorgvuldig een geautomatiseerde gegevensannotatiepijplijn op die 3D-begrenzingskaders en cameratrajecten extraheren uit grootschalige videogegevens. Uitgebreide kwalitatieve en kwantitatieve experimenten tonen aan dat CineMaster aanzienlijk beter presteert dan bestaande methoden en prominente 3D-bewuste tekst-naar-video generatie implementeert. Projectpagina: https://cinemaster-dev.github.io/.
English
In this work, we present CineMaster, a novel framework for 3D-aware and
controllable text-to-video generation. Our goal is to empower users with
comparable controllability as professional film directors: precise placement of
objects within the scene, flexible manipulation of both objects and camera in
3D space, and intuitive layout control over the rendered frames. To achieve
this, CineMaster operates in two stages. In the first stage, we design an
interactive workflow that allows users to intuitively construct 3D-aware
conditional signals by positioning object bounding boxes and defining camera
movements within the 3D space. In the second stage, these control
signals--comprising rendered depth maps, camera trajectories and object class
labels--serve as the guidance for a text-to-video diffusion model, ensuring to
generate the user-intended video content. Furthermore, to overcome the scarcity
of in-the-wild datasets with 3D object motion and camera pose annotations, we
carefully establish an automated data annotation pipeline that extracts 3D
bounding boxes and camera trajectories from large-scale video data. Extensive
qualitative and quantitative experiments demonstrate that CineMaster
significantly outperforms existing methods and implements prominent 3D-aware
text-to-video generation. Project page: https://cinemaster-dev.github.io/.Summary
AI-Generated Summary