ChatPaper.aiChatPaper

SynCamMaster: Синхронизация генерации видео с нескольких камер с различных точек обзора

SynCamMaster: Synchronizing Multi-Camera Video Generation from Diverse Viewpoints

December 10, 2024
Авторы: Jianhong Bai, Menghan Xia, Xintao Wang, Ziyang Yuan, Xiao Fu, Zuozhu Liu, Haoji Hu, Pengfei Wan, Di Zhang
cs.AI

Аннотация

Недавние достижения в моделях видеодиффузии показали исключительные способности в имитации динамики реального мира и поддержании трехмерной согласованности. Этот прогресс вдохновляет нас исследовать потенциал этих моделей для обеспечения динамической согласованности с различных точек зрения, что является весьма желательной особенностью для приложений, таких как виртуальная съемка. В отличие от существующих методов, сосредоточенных на многокамерной генерации отдельных объектов для реконструкции в 4D, наше внимание сосредоточено на создании видеороликов с открытым миром с произвольных точек зрения, включая позиции камеры с 6 степенями свободы. Для достижения этой цели мы предлагаем модуль "включи и играй", который улучшает предварительно обученную модель текст-видео для генерации многокамерных видеороликов, обеспечивая согласованное содержание с различных точек зрения. В частности, мы представляем модуль синхронизации многокамерного вида для поддержания согласованности внешнего вида и геометрии среди этих точек зрения. Учитывая недостаток высококачественных данных для обучения, мы разрабатываем гибридную схему обучения, которая использует изображения с несколькими камерами и монокулярные видеоролики для дополнения многокамерных видеороликов, созданных в Unreal Engine. Более того, наш метод позволяет интересные расширения, такие как повторная отрисовка видеоролика с новых точек зрения. Мы также выпустили набор данных видеороликов с синхронизацией многокамерного вида, названный SynCamVideo-Dataset. Страница проекта: https://jianhongbai.github.io/SynCamMaster/.
English
Recent advancements in video diffusion models have shown exceptional abilities in simulating real-world dynamics and maintaining 3D consistency. This progress inspires us to investigate the potential of these models to ensure dynamic consistency across various viewpoints, a highly desirable feature for applications such as virtual filming. Unlike existing methods focused on multi-view generation of single objects for 4D reconstruction, our interest lies in generating open-world videos from arbitrary viewpoints, incorporating 6 DoF camera poses. To achieve this, we propose a plug-and-play module that enhances a pre-trained text-to-video model for multi-camera video generation, ensuring consistent content across different viewpoints. Specifically, we introduce a multi-view synchronization module to maintain appearance and geometry consistency across these viewpoints. Given the scarcity of high-quality training data, we design a hybrid training scheme that leverages multi-camera images and monocular videos to supplement Unreal Engine-rendered multi-camera videos. Furthermore, our method enables intriguing extensions, such as re-rendering a video from novel viewpoints. We also release a multi-view synchronized video dataset, named SynCamVideo-Dataset. Project page: https://jianhongbai.github.io/SynCamMaster/.

Summary

AI-Generated Summary

PDF563December 12, 2024