ChatPaper.aiChatPaper

CineMaster: 映画的なテキストからビデオを生成するための3D認識および制御可能なフレームワーク

CineMaster: A 3D-Aware and Controllable Framework for Cinematic Text-to-Video Generation

February 12, 2025
著者: Qinghe Wang, Yawen Luo, Xiaoyu Shi, Xu Jia, Huchuan Lu, Tianfan Xue, Xintao Wang, Pengfei Wan, Di Zhang, Kun Gai
cs.AI

要旨

本研究では、3次元認識および制御可能なテキストからビデオを生成するための革新的なフレームワークであるCineMasterを提案します。私たちの目標は、ユーザーにプロの映画監督と同等の制御性を与えることです:シーン内のオブジェクトの正確な配置、3次元空間でのオブジェクトとカメラの柔軟な操作、およびレンダリングされたフレームの直感的なレイアウト制御。これを実現するために、CineMasterは2つの段階で動作します。最初の段階では、ユーザーがオブジェクトの境界ボックスを配置し、3D空間内でカメラの動きを定義することで、直感的に3D認識条件信号を構築できるインタラクティブなワークフローを設計します。2番目の段階では、これらの制御信号(レンダリングされた深度マップ、カメラの軌跡、オブジェクトクラスラベルを含む)が、テキストからビデオへの拡散モデルのガイダンスとして機能し、ユーザーが意図したビデオコンテンツを生成することを保証します。さらに、3Dオブジェクトの動きとカメラの位置の注釈が付いた野外データセットの希少性を克服するために、大規模なビデオデータから3D境界ボックスとカメラの軌跡を抽出する自動化されたデータ注釈パイプラインを慎重に構築しています。包括的な質的および量的実験により、CineMasterが既存の手法を大幅に上回り、優れた3次元認識テキストからビデオを生成する機能を実装していることが示されています。プロジェクトページ:https://cinemaster-dev.github.io/。
English
In this work, we present CineMaster, a novel framework for 3D-aware and controllable text-to-video generation. Our goal is to empower users with comparable controllability as professional film directors: precise placement of objects within the scene, flexible manipulation of both objects and camera in 3D space, and intuitive layout control over the rendered frames. To achieve this, CineMaster operates in two stages. In the first stage, we design an interactive workflow that allows users to intuitively construct 3D-aware conditional signals by positioning object bounding boxes and defining camera movements within the 3D space. In the second stage, these control signals--comprising rendered depth maps, camera trajectories and object class labels--serve as the guidance for a text-to-video diffusion model, ensuring to generate the user-intended video content. Furthermore, to overcome the scarcity of in-the-wild datasets with 3D object motion and camera pose annotations, we carefully establish an automated data annotation pipeline that extracts 3D bounding boxes and camera trajectories from large-scale video data. Extensive qualitative and quantitative experiments demonstrate that CineMaster significantly outperforms existing methods and implements prominent 3D-aware text-to-video generation. Project page: https://cinemaster-dev.github.io/.

Summary

AI-Generated Summary

PDF432February 13, 2025