SVG : Génération de vidéos stéréoscopiques 3D via la réduction de bruit de la matrice d'images

papers.abstract

Les modèles de génération vidéo ont démontré d'impressionnantes capacités à produire des vidéos monoscopiques de qualité. Cependant, la génération de vidéos stéréoscopiques 3D reste peu explorée. Nous proposons une approche sans pose et sans entraînement pour générer des vidéos stéréoscopiques 3D en utilisant un modèle de génération vidéo monoscopique prêt à l'emploi. Notre méthode transforme une vidéo monoscopique générée en vues caméra sur une base stéréoscopique en utilisant une estimation de la profondeur vidéo, et emploie un nouveau cadre de remplissage vidéo par matrice de trames. Ce cadre exploite le modèle de génération vidéo pour remplir les trames observées à différents instants et sous différents angles. Cette approche efficace génère des vidéos stéréoscopiques cohérentes et sémantiquement homogènes sans optimisation de scène ni ajustement fin du modèle. De plus, nous développons un schéma de réinjection des limites de désocclusion qui améliore davantage la qualité du remplissage vidéo en atténuant les effets négatifs propagés depuis les zones désoccluses dans l'espace latent. Nous validons l'efficacité de notre méthode proposée en menant des expériences sur des vidéos issues de divers modèles génératifs, notamment Sora [4], Lumiere [2], WALT [8] et Zeroscope [42]. Les expériences montrent que notre méthode apporte une amélioration significative par rapport aux méthodes précédentes. Le code sera publié à l'adresse suivante : https://daipengwa.github.io/SVG_ProjectPage.

English

Video generation models have demonstrated great capabilities of producing impressive monocular videos, however, the generation of 3D stereoscopic video remains under-explored. We propose a pose-free and training-free approach for generating 3D stereoscopic videos using an off-the-shelf monocular video generation model. Our method warps a generated monocular video into camera views on stereoscopic baseline using estimated video depth, and employs a novel frame matrix video inpainting framework. The framework leverages the video generation model to inpaint frames observed from different timestamps and views. This effective approach generates consistent and semantically coherent stereoscopic videos without scene optimization or model fine-tuning. Moreover, we develop a disocclusion boundary re-injection scheme that further improves the quality of video inpainting by alleviating the negative effects propagated from disoccluded areas in the latent space. We validate the efficacy of our proposed method by conducting experiments on videos from various generative models, including Sora [4 ], Lumiere [2], WALT [8 ], and Zeroscope [ 42]. The experiments demonstrate that our method has a significant improvement over previous methods. The code will be released at https://daipengwa.github.io/SVG_ProjectPage.

SVG : Génération de vidéos stéréoscopiques 3D via la réduction de bruit de la matrice d'images

SVG: 3D Stereoscopic Video Generation via Denoising Frame Matrix

papers.abstract

Support