SVG: Generación de Video Estereoscópico 3D mediante la Eliminación de Ruido en la Matriz de Fotogramas

Resumen

Los modelos de generación de video han demostrado grandes capacidades para producir videos monoculares impresionantes; sin embargo, la generación de video estereoscópico 3D sigue siendo un área poco explorada. Proponemos un enfoque libre de poses y sin necesidad de entrenamiento para generar videos estereoscópicos 3D utilizando un modelo de generación de video monocular disponible comercialmente. Nuestro método transforma un video monocular generado en vistas de cámara sobre una línea base estereoscópica utilizando la profundidad estimada del video, y emplea un novedoso marco de trabajo de inpaint de video basado en matrices de fotogramas. Este marco aprovecha el modelo de generación de video para realizar inpaint en fotogramas observados desde diferentes marcas de tiempo y vistas. Este enfoque efectivo genera videos estereoscópicos consistentes y semánticamente coherentes sin necesidad de optimización de escenas o ajuste fino del modelo. Además, desarrollamos un esquema de reinyección de límites de desoclusión que mejora aún más la calidad del inpaint de video al mitigar los efectos negativos propagados desde áreas desocluidas en el espacio latente. Validamos la eficacia de nuestro método propuesto mediante experimentos en videos generados por diversos modelos, incluyendo Sora [4], Lumiere [2], WALT [8] y Zeroscope [42]. Los experimentos demuestran que nuestro método ofrece una mejora significativa en comparación con métodos anteriores. El código será liberado en https://daipengwa.github.io/SVG_ProjectPage.

English

Video generation models have demonstrated great capabilities of producing impressive monocular videos, however, the generation of 3D stereoscopic video remains under-explored. We propose a pose-free and training-free approach for generating 3D stereoscopic videos using an off-the-shelf monocular video generation model. Our method warps a generated monocular video into camera views on stereoscopic baseline using estimated video depth, and employs a novel frame matrix video inpainting framework. The framework leverages the video generation model to inpaint frames observed from different timestamps and views. This effective approach generates consistent and semantically coherent stereoscopic videos without scene optimization or model fine-tuning. Moreover, we develop a disocclusion boundary re-injection scheme that further improves the quality of video inpainting by alleviating the negative effects propagated from disoccluded areas in the latent space. We validate the efficacy of our proposed method by conducting experiments on videos from various generative models, including Sora [4 ], Lumiere [2], WALT [8 ], and Zeroscope [ 42]. The experiments demonstrate that our method has a significant improvement over previous methods. The code will be released at https://daipengwa.github.io/SVG_ProjectPage.

SVG: Generación de Video Estereoscópico 3D mediante la Eliminación de Ruido en la Matriz de Fotogramas

SVG: 3D Stereoscopic Video Generation via Denoising Frame Matrix

Resumen

Support