SVG : Génération de vidéos stéréoscopiques 3D via la réduction de bruit de la matrice d'images
SVG: 3D Stereoscopic Video Generation via Denoising Frame Matrix
June 29, 2024
Auteurs: Peng Dai, Feitong Tan, Qiangeng Xu, David Futschik, Ruofei Du, Sean Fanello, Xiaojuan Qi, Yinda Zhang
cs.AI
Résumé
Les modèles de génération vidéo ont démontré d'impressionnantes capacités à produire des vidéos monoscopiques de qualité. Cependant, la génération de vidéos stéréoscopiques 3D reste peu explorée. Nous proposons une approche sans pose et sans entraînement pour générer des vidéos stéréoscopiques 3D en utilisant un modèle de génération vidéo monoscopique prêt à l'emploi. Notre méthode transforme une vidéo monoscopique générée en vues caméra sur une base stéréoscopique en utilisant une estimation de la profondeur vidéo, et emploie un nouveau cadre de remplissage vidéo par matrice de trames. Ce cadre exploite le modèle de génération vidéo pour remplir les trames observées à différents instants et sous différents angles. Cette approche efficace génère des vidéos stéréoscopiques cohérentes et sémantiquement homogènes sans optimisation de scène ni ajustement fin du modèle. De plus, nous développons un schéma de réinjection des limites de désocclusion qui améliore davantage la qualité du remplissage vidéo en atténuant les effets négatifs propagés depuis les zones désoccluses dans l'espace latent. Nous validons l'efficacité de notre méthode proposée en menant des expériences sur des vidéos issues de divers modèles génératifs, notamment Sora [4], Lumiere [2], WALT [8] et Zeroscope [42]. Les expériences montrent que notre méthode apporte une amélioration significative par rapport aux méthodes précédentes. Le code sera publié à l'adresse suivante : https://daipengwa.github.io/SVG_ProjectPage.
English
Video generation models have demonstrated great capabilities of producing
impressive monocular videos, however, the generation of 3D stereoscopic video
remains under-explored. We propose a pose-free and training-free approach for
generating 3D stereoscopic videos using an off-the-shelf monocular video
generation model. Our method warps a generated monocular video into camera
views on stereoscopic baseline using estimated video depth, and employs a novel
frame matrix video inpainting framework. The framework leverages the video
generation model to inpaint frames observed from different timestamps and
views. This effective approach generates consistent and semantically coherent
stereoscopic videos without scene optimization or model fine-tuning. Moreover,
we develop a disocclusion boundary re-injection scheme that further improves
the quality of video inpainting by alleviating the negative effects propagated
from disoccluded areas in the latent space. We validate the efficacy of our
proposed method by conducting experiments on videos from various generative
models, including Sora [4 ], Lumiere [2], WALT [8 ], and Zeroscope [ 42]. The
experiments demonstrate that our method has a significant improvement over
previous methods. The code will be released at
https://daipengwa.github.io/SVG_ProjectPage.Summary
AI-Generated Summary