SynCamMaster: Het synchroniseren van de generatie van multi-camera video's vanuit diverse gezichtspuntenSynCamMaster: Synchronizing Multi-Camera Video Generation from Diverse
Viewpoints
Recente ontwikkelingen in video diffusiemodellen hebben uitzonderlijke vaardigheden getoond in het simuleren van dynamiek in de echte wereld en het handhaven van 3D consistentie. Deze vooruitgang inspireert ons om het potentieel van deze modellen te onderzoeken om dynamische consistentie te waarborgen over verschillende standpunten, een zeer wenselijke eigenschap voor toepassingen zoals virtueel filmen. In tegenstelling tot bestaande methoden die gericht zijn op multi-view generatie van enkele objecten voor 4D reconstructie, ligt onze interesse in het genereren van open-world video's vanuit willekeurige standpunten, waarbij 6 DoF cameraposities worden opgenomen. Om dit te bereiken, stellen we een plug-and-play module voor die een vooraf getraind tekst-naar-video model verbetert voor multi-camera video generatie, waarbij consistente inhoud over verschillende standpunten wordt gewaarborgd. Specifiek introduceren we een multi-view synchronisatiemodule om uiterlijk en geometrische consistentie over deze standpunten te handhaven. Gezien de schaarste aan hoogwaardige trainingsgegevens, ontwerpen we een hybride trainingsmethode die multi-camera beelden en monoculaire video's benut om Unreal Engine-gerenderde multi-camera video's aan te vullen. Bovendien maakt onze methode intrigerende uitbreidingen mogelijk, zoals het opnieuw renderen van een video vanuit nieuwe standpunten. We brengen ook een multi-view gesynchroniseerde videodataset uit, genaamd SynCamVideo-Dataset. Projectpagina: https://jianhongbai.github.io/SynCamMaster/.