ChatPaper.aiChatPaper

SynCamMaster : Génération synchronisée de vidéos multi-caméras à partir de points de vue divers

SynCamMaster: Synchronizing Multi-Camera Video Generation from Diverse Viewpoints

December 10, 2024
Auteurs: Jianhong Bai, Menghan Xia, Xintao Wang, Ziyang Yuan, Xiao Fu, Zuozhu Liu, Haoji Hu, Pengfei Wan, Di Zhang
cs.AI

Résumé

Les récents progrès dans les modèles de diffusion vidéo ont montré des capacités exceptionnelles à simuler les dynamiques du monde réel et à maintenir une cohérence en 3D. Ce progrès nous inspire pour explorer le potentiel de ces modèles afin d'assurer une cohérence dynamique à travers divers points de vue, une caractéristique hautement souhaitable pour des applications telles que le tournage virtuel. Contrairement aux méthodes existantes axées sur la génération multi-vue d'objets uniques pour la reconstruction 4D, notre intérêt réside dans la génération de vidéos en monde ouvert à partir de points de vue arbitraires, en incorporant des poses de caméra 6 DoF. Pour y parvenir, nous proposons un module plug-and-play qui améliore un modèle texte-vidéo pré-entraîné pour la génération de vidéos multi-caméras, assurant ainsi un contenu cohérent à travers différents points de vue. Plus précisément, nous introduisons un module de synchronisation multi-vue pour maintenir la cohérence de l'apparence et de la géométrie à travers ces points de vue. Étant donné la rareté des données d'entraînement de haute qualité, nous concevons un schéma d'entraînement hybride qui exploite des images multi-caméras et des vidéos monoculaires pour compléter les vidéos multi-caméras rendues par Unreal Engine. De plus, notre méthode permet des extensions intéressantes, telles que la réexécution d'une vidéo à partir de nouveaux points de vue. Nous publions également un ensemble de données vidéo synchronisées multi-vues, nommé SynCamVideo-Dataset. Page du projet : https://jianhongbai.github.io/SynCamMaster/.
English
Recent advancements in video diffusion models have shown exceptional abilities in simulating real-world dynamics and maintaining 3D consistency. This progress inspires us to investigate the potential of these models to ensure dynamic consistency across various viewpoints, a highly desirable feature for applications such as virtual filming. Unlike existing methods focused on multi-view generation of single objects for 4D reconstruction, our interest lies in generating open-world videos from arbitrary viewpoints, incorporating 6 DoF camera poses. To achieve this, we propose a plug-and-play module that enhances a pre-trained text-to-video model for multi-camera video generation, ensuring consistent content across different viewpoints. Specifically, we introduce a multi-view synchronization module to maintain appearance and geometry consistency across these viewpoints. Given the scarcity of high-quality training data, we design a hybrid training scheme that leverages multi-camera images and monocular videos to supplement Unreal Engine-rendered multi-camera videos. Furthermore, our method enables intriguing extensions, such as re-rendering a video from novel viewpoints. We also release a multi-view synchronized video dataset, named SynCamVideo-Dataset. Project page: https://jianhongbai.github.io/SynCamMaster/.
PDF563December 12, 2024