ChatPaper.aiChatPaper

SynCamMaster: Het synchroniseren van de generatie van multi-camera video's vanuit diverse gezichtspunten

SynCamMaster: Synchronizing Multi-Camera Video Generation from Diverse Viewpoints

December 10, 2024
Auteurs: Jianhong Bai, Menghan Xia, Xintao Wang, Ziyang Yuan, Xiao Fu, Zuozhu Liu, Haoji Hu, Pengfei Wan, Di Zhang
cs.AI

Samenvatting

Recente ontwikkelingen in video diffusiemodellen hebben uitzonderlijke vaardigheden getoond in het simuleren van dynamiek in de echte wereld en het handhaven van 3D consistentie. Deze vooruitgang inspireert ons om het potentieel van deze modellen te onderzoeken om dynamische consistentie te waarborgen over verschillende standpunten, een zeer wenselijke eigenschap voor toepassingen zoals virtueel filmen. In tegenstelling tot bestaande methoden die gericht zijn op multi-view generatie van enkele objecten voor 4D reconstructie, ligt onze interesse in het genereren van open-world video's vanuit willekeurige standpunten, waarbij 6 DoF cameraposities worden opgenomen. Om dit te bereiken, stellen we een plug-and-play module voor die een vooraf getraind tekst-naar-video model verbetert voor multi-camera video generatie, waarbij consistente inhoud over verschillende standpunten wordt gewaarborgd. Specifiek introduceren we een multi-view synchronisatiemodule om uiterlijk en geometrische consistentie over deze standpunten te handhaven. Gezien de schaarste aan hoogwaardige trainingsgegevens, ontwerpen we een hybride trainingsmethode die multi-camera beelden en monoculaire video's benut om Unreal Engine-gerenderde multi-camera video's aan te vullen. Bovendien maakt onze methode intrigerende uitbreidingen mogelijk, zoals het opnieuw renderen van een video vanuit nieuwe standpunten. We brengen ook een multi-view gesynchroniseerde videodataset uit, genaamd SynCamVideo-Dataset. Projectpagina: https://jianhongbai.github.io/SynCamMaster/.
English
Recent advancements in video diffusion models have shown exceptional abilities in simulating real-world dynamics and maintaining 3D consistency. This progress inspires us to investigate the potential of these models to ensure dynamic consistency across various viewpoints, a highly desirable feature for applications such as virtual filming. Unlike existing methods focused on multi-view generation of single objects for 4D reconstruction, our interest lies in generating open-world videos from arbitrary viewpoints, incorporating 6 DoF camera poses. To achieve this, we propose a plug-and-play module that enhances a pre-trained text-to-video model for multi-camera video generation, ensuring consistent content across different viewpoints. Specifically, we introduce a multi-view synchronization module to maintain appearance and geometry consistency across these viewpoints. Given the scarcity of high-quality training data, we design a hybrid training scheme that leverages multi-camera images and monocular videos to supplement Unreal Engine-rendered multi-camera videos. Furthermore, our method enables intriguing extensions, such as re-rendering a video from novel viewpoints. We also release a multi-view synchronized video dataset, named SynCamVideo-Dataset. Project page: https://jianhongbai.github.io/SynCamMaster/.
PDF553December 12, 2024