ChatPaper.aiChatPaper

CineMaster: Un framework consapevole in 3D e controllabile per la generazione di video a partire da testi cinematografici

CineMaster: A 3D-Aware and Controllable Framework for Cinematic Text-to-Video Generation

February 12, 2025
Autori: Qinghe Wang, Yawen Luo, Xiaoyu Shi, Xu Jia, Huchuan Lu, Tianfan Xue, Xintao Wang, Pengfei Wan, Di Zhang, Kun Gai
cs.AI

Abstract

In questo lavoro, presentiamo CineMaster, un nuovo framework per la generazione di testo-video consapevole del 3D e controllabile. Il nostro obiettivo è quello di fornire agli utenti un livello di controllo paragonabile a quello dei registi cinematografici professionisti: posizionamento preciso degli oggetti all'interno della scena, manipolazione flessibile sia degli oggetti che della telecamera nello spazio 3D e controllo intuitivo del layout sui frame renderizzati. Per raggiungere questo obiettivo, CineMaster opera in due fasi. Nella prima fase, progettiamo un flusso di lavoro interattivo che consente agli utenti di costruire in modo intuitivo segnali condizionali consapevoli del 3D posizionando le bounding boxes degli oggetti e definendo i movimenti della telecamera nello spazio 3D. Nella seconda fase, questi segnali di controllo - che comprendono mappe di profondità renderizzate, traiettorie della telecamera e etichette di classe degli oggetti - fungono da guida per un modello di diffusione testo-video, garantendo la generazione dei contenuti video desiderati dall'utente. Inoltre, per superare la scarsità di dataset reali con annotazioni di movimento degli oggetti in 3D e posizioni della telecamera, istituiamo attentamente un flusso di lavoro di annotazione dati automatizzato che estrae bounding boxes in 3D e traiettorie della telecamera da dati video su larga scala. Estesi esperimenti qualitativi e quantitativi dimostrano che CineMaster supera significativamente i metodi esistenti e implementa una generazione di testo-video consapevole del 3D di spicco. Pagina del progetto: https://cinemaster-dev.github.io/.
English
In this work, we present CineMaster, a novel framework for 3D-aware and controllable text-to-video generation. Our goal is to empower users with comparable controllability as professional film directors: precise placement of objects within the scene, flexible manipulation of both objects and camera in 3D space, and intuitive layout control over the rendered frames. To achieve this, CineMaster operates in two stages. In the first stage, we design an interactive workflow that allows users to intuitively construct 3D-aware conditional signals by positioning object bounding boxes and defining camera movements within the 3D space. In the second stage, these control signals--comprising rendered depth maps, camera trajectories and object class labels--serve as the guidance for a text-to-video diffusion model, ensuring to generate the user-intended video content. Furthermore, to overcome the scarcity of in-the-wild datasets with 3D object motion and camera pose annotations, we carefully establish an automated data annotation pipeline that extracts 3D bounding boxes and camera trajectories from large-scale video data. Extensive qualitative and quantitative experiments demonstrate that CineMaster significantly outperforms existing methods and implements prominent 3D-aware text-to-video generation. Project page: https://cinemaster-dev.github.io/.
PDF432February 13, 2025