SVG: Generierung von 3D-stereoskopischem Video durch Rauschunterdrückung der Frame-Matrix
SVG: 3D Stereoscopic Video Generation via Denoising Frame Matrix
June 29, 2024
Autoren: Peng Dai, Feitong Tan, Qiangeng Xu, David Futschik, Ruofei Du, Sean Fanello, Xiaojuan Qi, Yinda Zhang
cs.AI
Zusammenfassung
Video-generierende Modelle haben große Fähigkeiten bei der Erzeugung beeindruckender monokularer Videos gezeigt, jedoch bleibt die Generierung von 3D-stereoskopischen Videos weitgehend unerforscht. Wir schlagen einen posefreien und trainingsfreien Ansatz zur Erzeugung von 3D-stereoskopischen Videos unter Verwendung eines handelsüblichen monokularen Video-generierenden Modells vor. Unsere Methode verformt ein erzeugtes monokulares Video in Kameraperspektiven auf stereoskopischer Basis unter Verwendung der geschätzten Videotiefe und verwendet ein neuartiges Rahmenmatrix-Video-Inpainting-Framework. Das Framework nutzt das Video-generierende Modell, um Frames zu ergänzen, die aus verschiedenen Zeitstempeln und Ansichten beobachtet werden. Dieser effektive Ansatz erzeugt konsistente und semantisch kohärente stereoskopische Videos ohne Szenenoptimierung oder Modellanpassung. Darüber hinaus entwickeln wir ein Disokklusionsgrenzen-Reinjektionsschema, das die Qualität der Video-Inpainting durch Linderung der negativen Effekte, die sich aus disokkludierten Bereichen im latenten Raum ergeben, weiter verbessert. Wir validieren die Wirksamkeit unseres vorgeschlagenen Verfahrens durch Experimente mit Videos aus verschiedenen generativen Modellen, einschließlich Sora [4], Lumiere [2], WALT [8] und Zeroscope [42]. Die Experimente zeigen, dass unser Verfahren eine signifikante Verbesserung gegenüber früheren Methoden aufweist. Der Code wird unter https://daipengwa.github.io/SVG_ProjectPage veröffentlicht.
English
Video generation models have demonstrated great capabilities of producing
impressive monocular videos, however, the generation of 3D stereoscopic video
remains under-explored. We propose a pose-free and training-free approach for
generating 3D stereoscopic videos using an off-the-shelf monocular video
generation model. Our method warps a generated monocular video into camera
views on stereoscopic baseline using estimated video depth, and employs a novel
frame matrix video inpainting framework. The framework leverages the video
generation model to inpaint frames observed from different timestamps and
views. This effective approach generates consistent and semantically coherent
stereoscopic videos without scene optimization or model fine-tuning. Moreover,
we develop a disocclusion boundary re-injection scheme that further improves
the quality of video inpainting by alleviating the negative effects propagated
from disoccluded areas in the latent space. We validate the efficacy of our
proposed method by conducting experiments on videos from various generative
models, including Sora [4 ], Lumiere [2], WALT [8 ], and Zeroscope [ 42]. The
experiments demonstrate that our method has a significant improvement over
previous methods. The code will be released at
https://daipengwa.github.io/SVG_ProjectPage.Summary
AI-Generated Summary