ChatPaper.aiChatPaper

CineMaster: Un marco consciente en 3D y controlable para la generación de video a partir de texto cinematográfico.

CineMaster: A 3D-Aware and Controllable Framework for Cinematic Text-to-Video Generation

February 12, 2025
Autores: Qinghe Wang, Yawen Luo, Xiaoyu Shi, Xu Jia, Huchuan Lu, Tianfan Xue, Xintao Wang, Pengfei Wan, Di Zhang, Kun Gai
cs.AI

Resumen

En este trabajo, presentamos CineMaster, un marco novedoso para la generación de texto a video con conciencia tridimensional y controlable. Nuestro objetivo es capacitar a los usuarios con una controlabilidad comparable a la de los directores de cine profesionales: colocación precisa de objetos dentro de la escena, manipulación flexible tanto de objetos como de la cámara en el espacio 3D, y control intuitivo del diseño sobre los fotogramas renderizados. Para lograr esto, CineMaster opera en dos etapas. En la primera etapa, diseñamos un flujo de trabajo interactivo que permite a los usuarios construir de manera intuitiva señales condicionales con conciencia 3D al posicionar cuadros delimitadores de objetos y definir movimientos de cámara dentro del espacio 3D. En la segunda etapa, estas señales de control, que incluyen mapas de profundidad renderizados, trayectorias de cámara y etiquetas de clase de objetos, sirven como guía para un modelo de difusión de texto a video, asegurando generar el contenido de video deseado por el usuario. Además, para superar la escasez de conjuntos de datos en entornos naturales con anotaciones de movimiento de objetos 3D y posición de cámara, establecemos cuidadosamente un proceso automatizado de anotación de datos que extrae cuadros delimitadores 3D y trayectorias de cámara de datos de video a gran escala. Experimentos cualitativos y cuantitativos extensos demuestran que CineMaster supera significativamente a los métodos existentes e implementa una destacada generación de texto a video con conciencia 3D. Página del proyecto: https://cinemaster-dev.github.io/.
English
In this work, we present CineMaster, a novel framework for 3D-aware and controllable text-to-video generation. Our goal is to empower users with comparable controllability as professional film directors: precise placement of objects within the scene, flexible manipulation of both objects and camera in 3D space, and intuitive layout control over the rendered frames. To achieve this, CineMaster operates in two stages. In the first stage, we design an interactive workflow that allows users to intuitively construct 3D-aware conditional signals by positioning object bounding boxes and defining camera movements within the 3D space. In the second stage, these control signals--comprising rendered depth maps, camera trajectories and object class labels--serve as the guidance for a text-to-video diffusion model, ensuring to generate the user-intended video content. Furthermore, to overcome the scarcity of in-the-wild datasets with 3D object motion and camera pose annotations, we carefully establish an automated data annotation pipeline that extracts 3D bounding boxes and camera trajectories from large-scale video data. Extensive qualitative and quantitative experiments demonstrate that CineMaster significantly outperforms existing methods and implements prominent 3D-aware text-to-video generation. Project page: https://cinemaster-dev.github.io/.

Summary

AI-Generated Summary

PDF432February 13, 2025