SynCamMaster: Синхронизация генерации видео с нескольких камер с различных точек обзора
SynCamMaster: Synchronizing Multi-Camera Video Generation from Diverse Viewpoints
December 10, 2024
Авторы: Jianhong Bai, Menghan Xia, Xintao Wang, Ziyang Yuan, Xiao Fu, Zuozhu Liu, Haoji Hu, Pengfei Wan, Di Zhang
cs.AI
Аннотация
Недавние достижения в моделях видеодиффузии показали исключительные способности в имитации динамики реального мира и поддержании трехмерной согласованности. Этот прогресс вдохновляет нас исследовать потенциал этих моделей для обеспечения динамической согласованности с различных точек зрения, что является весьма желательной особенностью для приложений, таких как виртуальная съемка. В отличие от существующих методов, сосредоточенных на многокамерной генерации отдельных объектов для реконструкции в 4D, наше внимание сосредоточено на создании видеороликов с открытым миром с произвольных точек зрения, включая позиции камеры с 6 степенями свободы. Для достижения этой цели мы предлагаем модуль "включи и играй", который улучшает предварительно обученную модель текст-видео для генерации многокамерных видеороликов, обеспечивая согласованное содержание с различных точек зрения. В частности, мы представляем модуль синхронизации многокамерного вида для поддержания согласованности внешнего вида и геометрии среди этих точек зрения. Учитывая недостаток высококачественных данных для обучения, мы разрабатываем гибридную схему обучения, которая использует изображения с несколькими камерами и монокулярные видеоролики для дополнения многокамерных видеороликов, созданных в Unreal Engine. Более того, наш метод позволяет интересные расширения, такие как повторная отрисовка видеоролика с новых точек зрения. Мы также выпустили набор данных видеороликов с синхронизацией многокамерного вида, названный SynCamVideo-Dataset. Страница проекта: https://jianhongbai.github.io/SynCamMaster/.
English
Recent advancements in video diffusion models have shown exceptional
abilities in simulating real-world dynamics and maintaining 3D consistency.
This progress inspires us to investigate the potential of these models to
ensure dynamic consistency across various viewpoints, a highly desirable
feature for applications such as virtual filming. Unlike existing methods
focused on multi-view generation of single objects for 4D reconstruction, our
interest lies in generating open-world videos from arbitrary viewpoints,
incorporating 6 DoF camera poses. To achieve this, we propose a plug-and-play
module that enhances a pre-trained text-to-video model for multi-camera video
generation, ensuring consistent content across different viewpoints.
Specifically, we introduce a multi-view synchronization module to maintain
appearance and geometry consistency across these viewpoints. Given the scarcity
of high-quality training data, we design a hybrid training scheme that
leverages multi-camera images and monocular videos to supplement Unreal
Engine-rendered multi-camera videos. Furthermore, our method enables intriguing
extensions, such as re-rendering a video from novel viewpoints. We also release
a multi-view synchronized video dataset, named SynCamVideo-Dataset. Project
page: https://jianhongbai.github.io/SynCamMaster/.Summary
AI-Generated Summary