SynCamMaster : Génération synchronisée de vidéos multi-caméras à partir de points de vue diversSynCamMaster: Synchronizing Multi-Camera Video Generation from Diverse
Viewpoints
Les récents progrès dans les modèles de diffusion vidéo ont montré des capacités exceptionnelles à simuler les dynamiques du monde réel et à maintenir une cohérence en 3D. Ce progrès nous inspire pour explorer le potentiel de ces modèles afin d'assurer une cohérence dynamique à travers divers points de vue, une caractéristique hautement souhaitable pour des applications telles que le tournage virtuel. Contrairement aux méthodes existantes axées sur la génération multi-vue d'objets uniques pour la reconstruction 4D, notre intérêt réside dans la génération de vidéos en monde ouvert à partir de points de vue arbitraires, en incorporant des poses de caméra 6 DoF. Pour y parvenir, nous proposons un module plug-and-play qui améliore un modèle texte-vidéo pré-entraîné pour la génération de vidéos multi-caméras, assurant ainsi un contenu cohérent à travers différents points de vue. Plus précisément, nous introduisons un module de synchronisation multi-vue pour maintenir la cohérence de l'apparence et de la géométrie à travers ces points de vue. Étant donné la rareté des données d'entraînement de haute qualité, nous concevons un schéma d'entraînement hybride qui exploite des images multi-caméras et des vidéos monoculaires pour compléter les vidéos multi-caméras rendues par Unreal Engine. De plus, notre méthode permet des extensions intéressantes, telles que la réexécution d'une vidéo à partir de nouveaux points de vue. Nous publions également un ensemble de données vidéo synchronisées multi-vues, nommé SynCamVideo-Dataset. Page du projet : https://jianhongbai.github.io/SynCamMaster/.