ChatPaper.aiChatPaper

CineMaster: Uma Estrutura 3D-Consciente e Controlável para Geração Cinematográfica de Vídeo a Partir de Texto

CineMaster: A 3D-Aware and Controllable Framework for Cinematic Text-to-Video Generation

February 12, 2025
Autores: Qinghe Wang, Yawen Luo, Xiaoyu Shi, Xu Jia, Huchuan Lu, Tianfan Xue, Xintao Wang, Pengfei Wan, Di Zhang, Kun Gai
cs.AI

Resumo

Neste trabalho, apresentamos o CineMaster, uma nova estrutura para geração de vídeos a partir de texto com consciência 3D e controle. Nosso objetivo é capacitar os usuários com um nível de controle comparável ao de diretores de cinema profissionais: posicionamento preciso de objetos dentro da cena, manipulação flexível tanto de objetos quanto da câmera no espaço 3D e controle intuitivo do layout sobre os quadros renderizados. Para alcançar isso, o CineMaster opera em duas etapas. Na primeira etapa, projetamos um fluxo de trabalho interativo que permite aos usuários construir intuitivamente sinais condicionais com consciência 3D, posicionando caixas delimitadoras de objetos e definindo movimentos da câmera no espaço 3D. Na segunda etapa, esses sinais de controle—compostos por mapas de profundidade renderizados, trajetórias da câmera e rótulos de classe de objetos—servem como orientação para um modelo de difusão de texto para vídeo, garantindo a geração do conteúdo de vídeo pretendido pelo usuário. Além disso, para superar a escassez de conjuntos de dados do mundo real com anotações de movimento de objetos 3D e poses da câmera, estabelecemos cuidadosamente um pipeline automatizado de anotação de dados que extrai caixas delimitadoras 3D e trajetórias da câmera de grandes volumes de dados de vídeo. Experimentos qualitativos e quantitativos extensivos demonstram que o CineMaster supera significativamente os métodos existentes e implementa uma geração de vídeo a partir de texto com consciência 3D de destaque. Página do projeto: https://cinemaster-dev.github.io/.
English
In this work, we present CineMaster, a novel framework for 3D-aware and controllable text-to-video generation. Our goal is to empower users with comparable controllability as professional film directors: precise placement of objects within the scene, flexible manipulation of both objects and camera in 3D space, and intuitive layout control over the rendered frames. To achieve this, CineMaster operates in two stages. In the first stage, we design an interactive workflow that allows users to intuitively construct 3D-aware conditional signals by positioning object bounding boxes and defining camera movements within the 3D space. In the second stage, these control signals--comprising rendered depth maps, camera trajectories and object class labels--serve as the guidance for a text-to-video diffusion model, ensuring to generate the user-intended video content. Furthermore, to overcome the scarcity of in-the-wild datasets with 3D object motion and camera pose annotations, we carefully establish an automated data annotation pipeline that extracts 3D bounding boxes and camera trajectories from large-scale video data. Extensive qualitative and quantitative experiments demonstrate that CineMaster significantly outperforms existing methods and implements prominent 3D-aware text-to-video generation. Project page: https://cinemaster-dev.github.io/.

Summary

AI-Generated Summary

PDF432February 13, 2025