SVG: Generazione di Video Stereoscopici 3D tramite Denoising della Matrice dei Fotogrammi
SVG: 3D Stereoscopic Video Generation via Denoising Frame Matrix
June 29, 2024
Autori: Peng Dai, Feitong Tan, Qiangeng Xu, David Futschik, Ruofei Du, Sean Fanello, Xiaojuan Qi, Yinda Zhang
cs.AI
Abstract
I modelli di generazione video hanno dimostrato grandi capacità nel produrre video monoculari impressionanti, tuttavia, la generazione di video stereoscopici 3D rimane ancora poco esplorata. Proponiamo un approccio senza pose e senza addestramento per generare video stereoscopici 3D utilizzando un modello di generazione video monoculare disponibile sul mercato. Il nostro metodo deforma un video monoculare generato in viste della camera su una baseline stereoscopica utilizzando la profondità video stimata e impiega un nuovo framework di inpaiting video basato su matrici di frame. Il framework sfrutta il modello di generazione video per riempire i frame osservati da diversi timestamp e viste. Questo approccio efficace genera video stereoscopici coerenti e semanticamente coesi senza ottimizzazione della scena o fine-tuning del modello. Inoltre, sviluppiamo uno schema di re-iniezione dei bordi di disocclusione che migliora ulteriormente la qualità dell'inpainting video mitigando gli effetti negativi propagati dalle aree disoccluse nello spazio latente. Validiamo l'efficacia del nostro metodo proposto conducendo esperimenti su video provenienti da vari modelli generativi, tra cui Sora [4], Lumiere [2], WALT [8] e Zeroscope [42]. Gli esperimenti dimostrano che il nostro metodo offre un miglioramento significativo rispetto ai metodi precedenti. Il codice sarà rilasciato su https://daipengwa.github.io/SVG_ProjectPage.
English
Video generation models have demonstrated great capabilities of producing
impressive monocular videos, however, the generation of 3D stereoscopic video
remains under-explored. We propose a pose-free and training-free approach for
generating 3D stereoscopic videos using an off-the-shelf monocular video
generation model. Our method warps a generated monocular video into camera
views on stereoscopic baseline using estimated video depth, and employs a novel
frame matrix video inpainting framework. The framework leverages the video
generation model to inpaint frames observed from different timestamps and
views. This effective approach generates consistent and semantically coherent
stereoscopic videos without scene optimization or model fine-tuning. Moreover,
we develop a disocclusion boundary re-injection scheme that further improves
the quality of video inpainting by alleviating the negative effects propagated
from disoccluded areas in the latent space. We validate the efficacy of our
proposed method by conducting experiments on videos from various generative
models, including Sora [4 ], Lumiere [2], WALT [8 ], and Zeroscope [ 42]. The
experiments demonstrate that our method has a significant improvement over
previous methods. The code will be released at
https://daipengwa.github.io/SVG_ProjectPage.