ChatPaper.aiChatPaper

CineMaster: Ein 3D-bewusstes und steuerbares Framework für die Generierung von kinoreifen Text-zu-Video-Inhalten.

CineMaster: A 3D-Aware and Controllable Framework for Cinematic Text-to-Video Generation

February 12, 2025
Autoren: Qinghe Wang, Yawen Luo, Xiaoyu Shi, Xu Jia, Huchuan Lu, Tianfan Xue, Xintao Wang, Pengfei Wan, Di Zhang, Kun Gai
cs.AI

Zusammenfassung

In dieser Arbeit präsentieren wir CineMaster, ein neuartiges Framework für die Generierung von Text-zu-Video unter Berücksichtigung von 3D und Steuerbarkeit. Unser Ziel ist es, Benutzern eine vergleichbare Steuerbarkeit wie professionellen Filmregisseuren zu ermöglichen: präzise Platzierung von Objekten innerhalb der Szene, flexible Manipulation sowohl von Objekten als auch der Kamera im 3D-Raum und intuitive Layoutsteuerung über die gerenderten Frames. Um dies zu erreichen, arbeitet CineMaster in zwei Phasen. In der ersten Phase entwerfen wir einen interaktiven Arbeitsablauf, der es Benutzern ermöglicht, intuitiv 3D-bewusste bedingte Signale zu konstruieren, indem sie Objektbegrenzungsrahmen positionieren und Kamerabewegungen im 3D-Raum definieren. In der zweiten Phase dienen diese Steuersignale - bestehend aus gerenderten Tiefenkarten, Kameratrajektorien und Objektklassenbezeichnungen - als Anleitung für ein Text-zu-Video-Diffusionsmodell, um sicherzustellen, dass der vom Benutzer beabsichtigte Videoinhalt generiert wird. Darüber hinaus haben wir, um den Mangel an in-the-wild Datensätzen mit 3D-Objektbewegungen und Kamerapositionsanmerkungen zu überwinden, eine automatisierte Datenannotationspipeline sorgfältig aufgebaut, die 3D-Begrenzungsrahmen und Kameratrajektorien aus groß angelegten Videodaten extrahiert. Umfangreiche qualitative und quantitative Experimente zeigen, dass CineMaster signifikant bessere Leistungen als bestehende Methoden erbringt und eine herausragende 3D-bewusste Text-zu-Video-Generierung implementiert. Projektseite: https://cinemaster-dev.github.io/.
English
In this work, we present CineMaster, a novel framework for 3D-aware and controllable text-to-video generation. Our goal is to empower users with comparable controllability as professional film directors: precise placement of objects within the scene, flexible manipulation of both objects and camera in 3D space, and intuitive layout control over the rendered frames. To achieve this, CineMaster operates in two stages. In the first stage, we design an interactive workflow that allows users to intuitively construct 3D-aware conditional signals by positioning object bounding boxes and defining camera movements within the 3D space. In the second stage, these control signals--comprising rendered depth maps, camera trajectories and object class labels--serve as the guidance for a text-to-video diffusion model, ensuring to generate the user-intended video content. Furthermore, to overcome the scarcity of in-the-wild datasets with 3D object motion and camera pose annotations, we carefully establish an automated data annotation pipeline that extracts 3D bounding boxes and camera trajectories from large-scale video data. Extensive qualitative and quantitative experiments demonstrate that CineMaster significantly outperforms existing methods and implements prominent 3D-aware text-to-video generation. Project page: https://cinemaster-dev.github.io/.

Summary

AI-Generated Summary

PDF432February 13, 2025