SVG: 3D Stereoscopische Videogeneratie via Denoising Frame Matrix
SVG: 3D Stereoscopic Video Generation via Denoising Frame Matrix
June 29, 2024
Auteurs: Peng Dai, Feitong Tan, Qiangeng Xu, David Futschik, Ruofei Du, Sean Fanello, Xiaojuan Qi, Yinda Zhang
cs.AI
Samenvatting
Videogeneratiemodellen hebben indrukwekkende mogelijkheden getoond voor het produceren van monoscopische video's, maar de generatie van 3D-stereoscopische video's blijft onderbelicht. Wij stellen een pose-vrije en trainingsvrije aanpak voor voor het genereren van 3D-stereoscopische video's met behulp van een standaard monoscopisch videogeneratiemodel. Onze methode vervormt een gegenereerde monoscopische video naar camerabeelden op een stereoscopische basislijn met behulp van geschatte videodiepte en maakt gebruik van een nieuw frame-matrix video-inpainting framework. Dit framework benut het videogeneratiemodel om frames in te vullen die vanuit verschillende tijdstippen en gezichtspunten worden waargenomen. Deze effectieve aanpak genereert consistente en semantisch coherente stereoscopische video's zonder scène-optimalisatie of model-finetuning. Bovendien ontwikkelen we een disocclusion boundary re-injection-schema dat de kwaliteit van video-inpainting verder verbetert door de negatieve effecten die worden doorgegeven vanuit gedisoccludeerde gebieden in de latente ruimte te verminderen. We valideren de effectiviteit van onze voorgestelde methode door experimenten uit te voeren op video's van verschillende generatieve modellen, waaronder Sora [4], Lumiere [2], WALT [8] en Zeroscope [42]. De experimenten tonen aan dat onze methode een significante verbetering biedt ten opzichte van eerdere methoden. De code zal worden vrijgegeven op https://daipengwa.github.io/SVG_ProjectPage.
English
Video generation models have demonstrated great capabilities of producing
impressive monocular videos, however, the generation of 3D stereoscopic video
remains under-explored. We propose a pose-free and training-free approach for
generating 3D stereoscopic videos using an off-the-shelf monocular video
generation model. Our method warps a generated monocular video into camera
views on stereoscopic baseline using estimated video depth, and employs a novel
frame matrix video inpainting framework. The framework leverages the video
generation model to inpaint frames observed from different timestamps and
views. This effective approach generates consistent and semantically coherent
stereoscopic videos without scene optimization or model fine-tuning. Moreover,
we develop a disocclusion boundary re-injection scheme that further improves
the quality of video inpainting by alleviating the negative effects propagated
from disoccluded areas in the latent space. We validate the efficacy of our
proposed method by conducting experiments on videos from various generative
models, including Sora [4 ], Lumiere [2], WALT [8 ], and Zeroscope [ 42]. The
experiments demonstrate that our method has a significant improvement over
previous methods. The code will be released at
https://daipengwa.github.io/SVG_ProjectPage.