SVG: Generación de Video Estereoscópico 3D mediante la Eliminación de Ruido en la Matriz de Fotogramas
SVG: 3D Stereoscopic Video Generation via Denoising Frame Matrix
June 29, 2024
Autores: Peng Dai, Feitong Tan, Qiangeng Xu, David Futschik, Ruofei Du, Sean Fanello, Xiaojuan Qi, Yinda Zhang
cs.AI
Resumen
Los modelos de generación de video han demostrado grandes capacidades para producir videos monoculares impresionantes; sin embargo, la generación de video estereoscópico 3D sigue siendo un área poco explorada. Proponemos un enfoque libre de poses y sin necesidad de entrenamiento para generar videos estereoscópicos 3D utilizando un modelo de generación de video monocular disponible comercialmente. Nuestro método transforma un video monocular generado en vistas de cámara sobre una línea base estereoscópica utilizando la profundidad estimada del video, y emplea un novedoso marco de trabajo de inpaint de video basado en matrices de fotogramas. Este marco aprovecha el modelo de generación de video para realizar inpaint en fotogramas observados desde diferentes marcas de tiempo y vistas. Este enfoque efectivo genera videos estereoscópicos consistentes y semánticamente coherentes sin necesidad de optimización de escenas o ajuste fino del modelo. Además, desarrollamos un esquema de reinyección de límites de desoclusión que mejora aún más la calidad del inpaint de video al mitigar los efectos negativos propagados desde áreas desocluidas en el espacio latente. Validamos la eficacia de nuestro método propuesto mediante experimentos en videos generados por diversos modelos, incluyendo Sora [4], Lumiere [2], WALT [8] y Zeroscope [42]. Los experimentos demuestran que nuestro método ofrece una mejora significativa en comparación con métodos anteriores. El código será liberado en https://daipengwa.github.io/SVG_ProjectPage.
English
Video generation models have demonstrated great capabilities of producing
impressive monocular videos, however, the generation of 3D stereoscopic video
remains under-explored. We propose a pose-free and training-free approach for
generating 3D stereoscopic videos using an off-the-shelf monocular video
generation model. Our method warps a generated monocular video into camera
views on stereoscopic baseline using estimated video depth, and employs a novel
frame matrix video inpainting framework. The framework leverages the video
generation model to inpaint frames observed from different timestamps and
views. This effective approach generates consistent and semantically coherent
stereoscopic videos without scene optimization or model fine-tuning. Moreover,
we develop a disocclusion boundary re-injection scheme that further improves
the quality of video inpainting by alleviating the negative effects propagated
from disoccluded areas in the latent space. We validate the efficacy of our
proposed method by conducting experiments on videos from various generative
models, including Sora [4 ], Lumiere [2], WALT [8 ], and Zeroscope [ 42]. The
experiments demonstrate that our method has a significant improvement over
previous methods. The code will be released at
https://daipengwa.github.io/SVG_ProjectPage.Summary
AI-Generated Summary