ChatPaper.aiChatPaper

SVG: Generazione di Video Stereoscopici 3D tramite Denoising della Matrice dei Fotogrammi

SVG: 3D Stereoscopic Video Generation via Denoising Frame Matrix

June 29, 2024
Autori: Peng Dai, Feitong Tan, Qiangeng Xu, David Futschik, Ruofei Du, Sean Fanello, Xiaojuan Qi, Yinda Zhang
cs.AI

Abstract

I modelli di generazione video hanno dimostrato grandi capacità nel produrre video monoculari impressionanti, tuttavia, la generazione di video stereoscopici 3D rimane ancora poco esplorata. Proponiamo un approccio senza pose e senza addestramento per generare video stereoscopici 3D utilizzando un modello di generazione video monoculare disponibile sul mercato. Il nostro metodo deforma un video monoculare generato in viste della camera su una baseline stereoscopica utilizzando la profondità video stimata e impiega un nuovo framework di inpaiting video basato su matrici di frame. Il framework sfrutta il modello di generazione video per riempire i frame osservati da diversi timestamp e viste. Questo approccio efficace genera video stereoscopici coerenti e semanticamente coesi senza ottimizzazione della scena o fine-tuning del modello. Inoltre, sviluppiamo uno schema di re-iniezione dei bordi di disocclusione che migliora ulteriormente la qualità dell'inpainting video mitigando gli effetti negativi propagati dalle aree disoccluse nello spazio latente. Validiamo l'efficacia del nostro metodo proposto conducendo esperimenti su video provenienti da vari modelli generativi, tra cui Sora [4], Lumiere [2], WALT [8] e Zeroscope [42]. Gli esperimenti dimostrano che il nostro metodo offre un miglioramento significativo rispetto ai metodi precedenti. Il codice sarà rilasciato su https://daipengwa.github.io/SVG_ProjectPage.
English
Video generation models have demonstrated great capabilities of producing impressive monocular videos, however, the generation of 3D stereoscopic video remains under-explored. We propose a pose-free and training-free approach for generating 3D stereoscopic videos using an off-the-shelf monocular video generation model. Our method warps a generated monocular video into camera views on stereoscopic baseline using estimated video depth, and employs a novel frame matrix video inpainting framework. The framework leverages the video generation model to inpaint frames observed from different timestamps and views. This effective approach generates consistent and semantically coherent stereoscopic videos without scene optimization or model fine-tuning. Moreover, we develop a disocclusion boundary re-injection scheme that further improves the quality of video inpainting by alleviating the negative effects propagated from disoccluded areas in the latent space. We validate the efficacy of our proposed method by conducting experiments on videos from various generative models, including Sora [4 ], Lumiere [2], WALT [8 ], and Zeroscope [ 42]. The experiments demonstrate that our method has a significant improvement over previous methods. The code will be released at https://daipengwa.github.io/SVG_ProjectPage.
PDF101November 28, 2024