SynCamMaster: Generazione di Video Multicamera Sincronizzati da Diversi Punti di VistaSynCamMaster: Synchronizing Multi-Camera Video Generation from Diverse
Viewpoints
I recenti progressi nei modelli di diffusione video hanno mostrato capacità eccezionali nella simulazione delle dinamiche del mondo reale e nel mantenimento della consistenza in 3D. Questo progresso ci ispira a investigare il potenziale di questi modelli per garantire una coerenza dinamica tra vari punti di vista, una caratteristica molto desiderabile per applicazioni come le riprese virtuali. A differenza dei metodi esistenti focalizzati sulla generazione multi-vista di singoli oggetti per la ricostruzione in 4D, il nostro interesse è nella generazione di video open-world da punti di vista arbitrari, incorporando pose di telecamera a 6 gradi di libertà. Per raggiungere questo obiettivo, proponiamo un modulo plug-and-play che potenzia un modello di testo-a-video pre-addestrato per la generazione di video multi-camera, garantendo coerenza di contenuto tra diversi punti di vista. In particolare, introduciamo un modulo di sincronizzazione multi-vista per mantenere la consistenza dell'aspetto e della geometria tra questi punti di vista. Date le limitate quantità di dati di addestramento di alta qualità, progettiamo un regime di addestramento ibrido che sfrutta immagini multi-camera e video monoculari per integrare video multi-camera renderizzati con Unreal Engine. Inoltre, il nostro metodo consente interessanti estensioni, come il ri-rendering di un video da nuovi punti di vista. Rilasciamo anche un dataset video sincronizzato multi-vista, chiamato SynCamVideo-Dataset. Pagina del progetto: https://jianhongbai.github.io/SynCamMaster/.