SynCamMaster: Het synchroniseren van de generatie van multi-camera video's vanuit diverse gezichtspunten
SynCamMaster: Synchronizing Multi-Camera Video Generation from Diverse Viewpoints
December 10, 2024
Auteurs: Jianhong Bai, Menghan Xia, Xintao Wang, Ziyang Yuan, Xiao Fu, Zuozhu Liu, Haoji Hu, Pengfei Wan, Di Zhang
cs.AI
Samenvatting
Recente ontwikkelingen in video diffusiemodellen hebben uitzonderlijke vaardigheden getoond in het simuleren van dynamiek in de echte wereld en het handhaven van 3D consistentie. Deze vooruitgang inspireert ons om het potentieel van deze modellen te onderzoeken om dynamische consistentie te waarborgen over verschillende standpunten, een zeer wenselijke eigenschap voor toepassingen zoals virtueel filmen. In tegenstelling tot bestaande methoden die gericht zijn op multi-view generatie van enkele objecten voor 4D reconstructie, ligt onze interesse in het genereren van open-world video's vanuit willekeurige standpunten, waarbij 6 DoF cameraposities worden opgenomen. Om dit te bereiken, stellen we een plug-and-play module voor die een vooraf getraind tekst-naar-video model verbetert voor multi-camera video generatie, waarbij consistente inhoud over verschillende standpunten wordt gewaarborgd. Specifiek introduceren we een multi-view synchronisatiemodule om uiterlijk en geometrische consistentie over deze standpunten te handhaven. Gezien de schaarste aan hoogwaardige trainingsgegevens, ontwerpen we een hybride trainingsmethode die multi-camera beelden en monoculaire video's benut om Unreal Engine-gerenderde multi-camera video's aan te vullen. Bovendien maakt onze methode intrigerende uitbreidingen mogelijk, zoals het opnieuw renderen van een video vanuit nieuwe standpunten. We brengen ook een multi-view gesynchroniseerde videodataset uit, genaamd SynCamVideo-Dataset. Projectpagina: https://jianhongbai.github.io/SynCamMaster/.
English
Recent advancements in video diffusion models have shown exceptional
abilities in simulating real-world dynamics and maintaining 3D consistency.
This progress inspires us to investigate the potential of these models to
ensure dynamic consistency across various viewpoints, a highly desirable
feature for applications such as virtual filming. Unlike existing methods
focused on multi-view generation of single objects for 4D reconstruction, our
interest lies in generating open-world videos from arbitrary viewpoints,
incorporating 6 DoF camera poses. To achieve this, we propose a plug-and-play
module that enhances a pre-trained text-to-video model for multi-camera video
generation, ensuring consistent content across different viewpoints.
Specifically, we introduce a multi-view synchronization module to maintain
appearance and geometry consistency across these viewpoints. Given the scarcity
of high-quality training data, we design a hybrid training scheme that
leverages multi-camera images and monocular videos to supplement Unreal
Engine-rendered multi-camera videos. Furthermore, our method enables intriguing
extensions, such as re-rendering a video from novel viewpoints. We also release
a multi-view synchronized video dataset, named SynCamVideo-Dataset. Project
page: https://jianhongbai.github.io/SynCamMaster/.