SynCamMaster : Génération synchronisée de vidéos multi-caméras à partir de points de vue divers
SynCamMaster: Synchronizing Multi-Camera Video Generation from Diverse Viewpoints
December 10, 2024
Auteurs: Jianhong Bai, Menghan Xia, Xintao Wang, Ziyang Yuan, Xiao Fu, Zuozhu Liu, Haoji Hu, Pengfei Wan, Di Zhang
cs.AI
Résumé
Les récents progrès dans les modèles de diffusion vidéo ont montré des capacités exceptionnelles à simuler les dynamiques du monde réel et à maintenir une cohérence en 3D. Ce progrès nous inspire pour explorer le potentiel de ces modèles afin d'assurer une cohérence dynamique à travers divers points de vue, une caractéristique hautement souhaitable pour des applications telles que le tournage virtuel. Contrairement aux méthodes existantes axées sur la génération multi-vue d'objets uniques pour la reconstruction 4D, notre intérêt réside dans la génération de vidéos en monde ouvert à partir de points de vue arbitraires, en incorporant des poses de caméra 6 DoF. Pour y parvenir, nous proposons un module plug-and-play qui améliore un modèle texte-vidéo pré-entraîné pour la génération de vidéos multi-caméras, assurant ainsi un contenu cohérent à travers différents points de vue. Plus précisément, nous introduisons un module de synchronisation multi-vue pour maintenir la cohérence de l'apparence et de la géométrie à travers ces points de vue. Étant donné la rareté des données d'entraînement de haute qualité, nous concevons un schéma d'entraînement hybride qui exploite des images multi-caméras et des vidéos monoculaires pour compléter les vidéos multi-caméras rendues par Unreal Engine. De plus, notre méthode permet des extensions intéressantes, telles que la réexécution d'une vidéo à partir de nouveaux points de vue. Nous publions également un ensemble de données vidéo synchronisées multi-vues, nommé SynCamVideo-Dataset. Page du projet : https://jianhongbai.github.io/SynCamMaster/.
English
Recent advancements in video diffusion models have shown exceptional
abilities in simulating real-world dynamics and maintaining 3D consistency.
This progress inspires us to investigate the potential of these models to
ensure dynamic consistency across various viewpoints, a highly desirable
feature for applications such as virtual filming. Unlike existing methods
focused on multi-view generation of single objects for 4D reconstruction, our
interest lies in generating open-world videos from arbitrary viewpoints,
incorporating 6 DoF camera poses. To achieve this, we propose a plug-and-play
module that enhances a pre-trained text-to-video model for multi-camera video
generation, ensuring consistent content across different viewpoints.
Specifically, we introduce a multi-view synchronization module to maintain
appearance and geometry consistency across these viewpoints. Given the scarcity
of high-quality training data, we design a hybrid training scheme that
leverages multi-camera images and monocular videos to supplement Unreal
Engine-rendered multi-camera videos. Furthermore, our method enables intriguing
extensions, such as re-rendering a video from novel viewpoints. We also release
a multi-view synchronized video dataset, named SynCamVideo-Dataset. Project
page: https://jianhongbai.github.io/SynCamMaster/.