ChatPaper.aiChatPaper

SynCamMaster: Synchronisierte Erzeugung von Mehrkamera-Videos aus verschiedenen Blickwinkeln

SynCamMaster: Synchronizing Multi-Camera Video Generation from Diverse Viewpoints

December 10, 2024
Autoren: Jianhong Bai, Menghan Xia, Xintao Wang, Ziyang Yuan, Xiao Fu, Zuozhu Liu, Haoji Hu, Pengfei Wan, Di Zhang
cs.AI

Zusammenfassung

Die jüngsten Fortschritte in Video-Diffusionsmodellen haben außergewöhnliche Fähigkeiten gezeigt, um realitätsnahe Dynamiken zu simulieren und eine 3D-Konsistenz aufrechtzuerhalten. Dieser Fortschritt inspiriert uns, das Potenzial dieser Modelle zu untersuchen, um eine dynamische Konsistenz über verschiedene Blickwinkel hinweg sicherzustellen, eine äußerst wünschenswerte Eigenschaft für Anwendungen wie virtuelles Filmen. Im Gegensatz zu bestehenden Methoden, die sich auf die Mehrblickgenerierung einzelner Objekte für die 4D-Rekonstruktion konzentrieren, liegt unser Interesse darin, Open-World-Videos aus beliebigen Blickwinkeln zu generieren, unter Einbeziehung von 6 DoF-Kamerapositionen. Um dies zu erreichen, schlagen wir ein Plug-and-Play-Modul vor, das ein vortrainiertes Text-zu-Video-Modell zur Generierung von Mehrkamera-Videos verbessert und eine konsistente Inhaltsdarstellung über verschiedene Blickwinkel hinweg gewährleistet. Konkret führen wir ein Mehrblick-Synchronisationsmodul ein, um Erscheinungsbild- und Geometriekonsistenz über diese Blickwinkel hinweg aufrechtzuerhalten. Angesichts des Mangels an hochwertigen Trainingsdaten entwerfen wir ein hybrides Schulungsschema, das Mehrkamera-Bilder und monokulare Videos nutzt, um von Unreal Engine gerenderte Mehrkamera-Videos zu ergänzen. Darüber hinaus ermöglicht unsere Methode faszinierende Erweiterungen, wie das Neu-Rendern eines Videos aus neuen Blickwinkeln. Wir veröffentlichen auch einen Mehrblick-synchronisierten Videodatensatz namens SynCamVideo-Datensatz. Projektseite: https://jianhongbai.github.io/SynCamMaster/.
English
Recent advancements in video diffusion models have shown exceptional abilities in simulating real-world dynamics and maintaining 3D consistency. This progress inspires us to investigate the potential of these models to ensure dynamic consistency across various viewpoints, a highly desirable feature for applications such as virtual filming. Unlike existing methods focused on multi-view generation of single objects for 4D reconstruction, our interest lies in generating open-world videos from arbitrary viewpoints, incorporating 6 DoF camera poses. To achieve this, we propose a plug-and-play module that enhances a pre-trained text-to-video model for multi-camera video generation, ensuring consistent content across different viewpoints. Specifically, we introduce a multi-view synchronization module to maintain appearance and geometry consistency across these viewpoints. Given the scarcity of high-quality training data, we design a hybrid training scheme that leverages multi-camera images and monocular videos to supplement Unreal Engine-rendered multi-camera videos. Furthermore, our method enables intriguing extensions, such as re-rendering a video from novel viewpoints. We also release a multi-view synchronized video dataset, named SynCamVideo-Dataset. Project page: https://jianhongbai.github.io/SynCamMaster/.

Summary

AI-Generated Summary

PDF563December 12, 2024