CineMaster: Фреймворк для генерации видео из текста с учетом 3D и возможностью управления.
CineMaster: A 3D-Aware and Controllable Framework for Cinematic Text-to-Video Generation
February 12, 2025
Авторы: Qinghe Wang, Yawen Luo, Xiaoyu Shi, Xu Jia, Huchuan Lu, Tianfan Xue, Xintao Wang, Pengfei Wan, Di Zhang, Kun Gai
cs.AI
Аннотация
В данной работе мы представляем CineMaster, новую структуру для генерации текста в видео с учетом 3D и возможностью управления процессом. Наша цель - предоставить пользователям сопоставимую возможность управления, как у профессиональных режиссеров: точное размещение объектов в сцене, гибкое управление как объектами, так и камерой в 3D пространстве, а также интуитивное управление компоновкой визуализированных кадров. Для достижения этой цели CineMaster работает в двух этапах. На первом этапе мы разрабатываем интерактивный рабочий процесс, который позволяет пользователям интуитивно создавать 3D-ориентированные условные сигналы, путем позиционирования ограничивающих рамок объектов и определения движений камеры в 3D пространстве. На втором этапе эти управляющие сигналы - включающие в себя визуализированные карты глубины, траектории камеры и метки классов объектов - служат руководством для модели диффузии текста в видео, обеспечивая генерацию видеоконтента, соответствующего намерениям пользователя. Более того, чтобы преодолеть недостаток наборов данных "in-the-wild" с аннотациями движения 3D объектов и позиций камеры, мы тщательно создаем автоматизированный конвейер аннотации данных, который извлекает 3D ограничивающие рамки и траектории камеры из видеоданных большого масштаба. Обширные качественные и количественные эксперименты демонстрируют, что CineMaster значительно превосходит существующие методы и реализует выдающуюся генерацию текста в видео с учетом 3D. Страница проекта: https://cinemaster-dev.github.io/.
English
In this work, we present CineMaster, a novel framework for 3D-aware and
controllable text-to-video generation. Our goal is to empower users with
comparable controllability as professional film directors: precise placement of
objects within the scene, flexible manipulation of both objects and camera in
3D space, and intuitive layout control over the rendered frames. To achieve
this, CineMaster operates in two stages. In the first stage, we design an
interactive workflow that allows users to intuitively construct 3D-aware
conditional signals by positioning object bounding boxes and defining camera
movements within the 3D space. In the second stage, these control
signals--comprising rendered depth maps, camera trajectories and object class
labels--serve as the guidance for a text-to-video diffusion model, ensuring to
generate the user-intended video content. Furthermore, to overcome the scarcity
of in-the-wild datasets with 3D object motion and camera pose annotations, we
carefully establish an automated data annotation pipeline that extracts 3D
bounding boxes and camera trajectories from large-scale video data. Extensive
qualitative and quantitative experiments demonstrate that CineMaster
significantly outperforms existing methods and implements prominent 3D-aware
text-to-video generation. Project page: https://cinemaster-dev.github.io/.Summary
AI-Generated Summary