ChatPaper.aiChatPaper

SynCamMaster: Generazione di Video Multicamera Sincronizzati da Diversi Punti di Vista

SynCamMaster: Synchronizing Multi-Camera Video Generation from Diverse Viewpoints

December 10, 2024
Autori: Jianhong Bai, Menghan Xia, Xintao Wang, Ziyang Yuan, Xiao Fu, Zuozhu Liu, Haoji Hu, Pengfei Wan, Di Zhang
cs.AI

Abstract

I recenti progressi nei modelli di diffusione video hanno mostrato capacità eccezionali nella simulazione delle dinamiche del mondo reale e nel mantenimento della consistenza in 3D. Questo progresso ci ispira a investigare il potenziale di questi modelli per garantire una coerenza dinamica tra vari punti di vista, una caratteristica molto desiderabile per applicazioni come le riprese virtuali. A differenza dei metodi esistenti focalizzati sulla generazione multi-vista di singoli oggetti per la ricostruzione in 4D, il nostro interesse è nella generazione di video open-world da punti di vista arbitrari, incorporando pose di telecamera a 6 gradi di libertà. Per raggiungere questo obiettivo, proponiamo un modulo plug-and-play che potenzia un modello di testo-a-video pre-addestrato per la generazione di video multi-camera, garantendo coerenza di contenuto tra diversi punti di vista. In particolare, introduciamo un modulo di sincronizzazione multi-vista per mantenere la consistenza dell'aspetto e della geometria tra questi punti di vista. Date le limitate quantità di dati di addestramento di alta qualità, progettiamo un regime di addestramento ibrido che sfrutta immagini multi-camera e video monoculari per integrare video multi-camera renderizzati con Unreal Engine. Inoltre, il nostro metodo consente interessanti estensioni, come il ri-rendering di un video da nuovi punti di vista. Rilasciamo anche un dataset video sincronizzato multi-vista, chiamato SynCamVideo-Dataset. Pagina del progetto: https://jianhongbai.github.io/SynCamMaster/.
English
Recent advancements in video diffusion models have shown exceptional abilities in simulating real-world dynamics and maintaining 3D consistency. This progress inspires us to investigate the potential of these models to ensure dynamic consistency across various viewpoints, a highly desirable feature for applications such as virtual filming. Unlike existing methods focused on multi-view generation of single objects for 4D reconstruction, our interest lies in generating open-world videos from arbitrary viewpoints, incorporating 6 DoF camera poses. To achieve this, we propose a plug-and-play module that enhances a pre-trained text-to-video model for multi-camera video generation, ensuring consistent content across different viewpoints. Specifically, we introduce a multi-view synchronization module to maintain appearance and geometry consistency across these viewpoints. Given the scarcity of high-quality training data, we design a hybrid training scheme that leverages multi-camera images and monocular videos to supplement Unreal Engine-rendered multi-camera videos. Furthermore, our method enables intriguing extensions, such as re-rendering a video from novel viewpoints. We also release a multi-view synchronized video dataset, named SynCamVideo-Dataset. Project page: https://jianhongbai.github.io/SynCamMaster/.

Summary

AI-Generated Summary

PDF563December 12, 2024