ChatPaper.aiChatPaper

SVG: Geração de Vídeo Estereoscópico 3D por meio da Matriz de Desnublamento de Quadros

SVG: 3D Stereoscopic Video Generation via Denoising Frame Matrix

June 29, 2024
Autores: Peng Dai, Feitong Tan, Qiangeng Xu, David Futschik, Ruofei Du, Sean Fanello, Xiaojuan Qi, Yinda Zhang
cs.AI

Resumo

Os modelos de geração de vídeo têm demonstrado grandes capacidades de produzir vídeos monoscópicos impressionantes, no entanto, a geração de vídeos estereoscópicos 3D ainda é pouco explorada. Propomos uma abordagem livre de pose e treinamento para gerar vídeos estereoscópicos 3D usando um modelo de geração de vídeo monoscópico pronto para uso. Nosso método distorce um vídeo monoscópico gerado em vistas de câmera em uma linha de base estereoscópica usando a profundidade de vídeo estimada, e emprega um novo framework de preenchimento de vídeo de matriz de quadros. O framework aproveita o modelo de geração de vídeo para preencher quadros observados em diferentes timestamps e vistas. Esta abordagem eficaz gera vídeos estereoscópicos consistentes e semanticamente coerentes sem otimização de cena ou ajuste fino do modelo. Além disso, desenvolvemos um esquema de reinjeção de fronteira de desoclusão que melhora ainda mais a qualidade do preenchimento de vídeo ao aliviar os efeitos negativos propagados das áreas desocludidas no espaço latente. Validamos a eficácia do nosso método proposto realizando experimentos em vídeos de vários modelos generativos, incluindo Sora [4], Lumiere [2], WALT [8], e Zeroscope [42]. Os experimentos demonstram que nosso método apresenta uma melhoria significativa em relação aos métodos anteriores. O código será disponibilizado em https://daipengwa.github.io/SVG_ProjectPage.
English
Video generation models have demonstrated great capabilities of producing impressive monocular videos, however, the generation of 3D stereoscopic video remains under-explored. We propose a pose-free and training-free approach for generating 3D stereoscopic videos using an off-the-shelf monocular video generation model. Our method warps a generated monocular video into camera views on stereoscopic baseline using estimated video depth, and employs a novel frame matrix video inpainting framework. The framework leverages the video generation model to inpaint frames observed from different timestamps and views. This effective approach generates consistent and semantically coherent stereoscopic videos without scene optimization or model fine-tuning. Moreover, we develop a disocclusion boundary re-injection scheme that further improves the quality of video inpainting by alleviating the negative effects propagated from disoccluded areas in the latent space. We validate the efficacy of our proposed method by conducting experiments on videos from various generative models, including Sora [4 ], Lumiere [2], WALT [8 ], and Zeroscope [ 42]. The experiments demonstrate that our method has a significant improvement over previous methods. The code will be released at https://daipengwa.github.io/SVG_ProjectPage.
PDF101November 28, 2024