ChatPaper.aiChatPaper

SV4D : Génération dynamique de contenu 3D avec cohérence multi-images et multi-vues

SV4D: Dynamic 3D Content Generation with Multi-Frame and Multi-View Consistency

July 24, 2024
Auteurs: Yiming Xie, Chun-Han Yao, Vikram Voleti, Huaizu Jiang, Varun Jampani
cs.AI

Résumé

Nous présentons Stable Video 4D (SV4D), un modèle de diffusion latente vidéo pour la génération de contenu 3D dynamique cohérent en multi-images et multi-vues. Contrairement aux méthodes précédentes qui s'appuient sur des modèles génératifs entraînés séparément pour la génération vidéo et la synthèse de nouvelles vues, nous concevons un modèle de diffusion unifié pour générer des vidéos de nouvelles vues d'objets 3D dynamiques. Plus précisément, étant donné une vidéo de référence monoculaire, SV4D génère de nouvelles vues pour chaque image vidéo qui sont temporellement cohérentes. Nous utilisons ensuite les vidéos de nouvelles vues générées pour optimiser efficacement une représentation 4D implicite (NeRF dynamique), sans avoir recours à l'optimisation fastidieuse basée sur SDS utilisée dans la plupart des travaux antérieurs. Pour entraîner notre modèle unifié de génération de vidéos de nouvelles vues, nous avons constitué un ensemble de données d'objets 3D dynamiques à partir du jeu de données Objaverse existant. Les résultats expérimentaux approfondis sur plusieurs ensembles de données et les études utilisateurs démontrent que SV4D atteint des performances de pointe en synthèse vidéo de nouvelles vues ainsi qu'en génération 4D par rapport aux travaux précédents.
English
We present Stable Video 4D (SV4D), a latent video diffusion model for multi-frame and multi-view consistent dynamic 3D content generation. Unlike previous methods that rely on separately trained generative models for video generation and novel view synthesis, we design a unified diffusion model to generate novel view videos of dynamic 3D objects. Specifically, given a monocular reference video, SV4D generates novel views for each video frame that are temporally consistent. We then use the generated novel view videos to optimize an implicit 4D representation (dynamic NeRF) efficiently, without the need for cumbersome SDS-based optimization used in most prior works. To train our unified novel view video generation model, we curated a dynamic 3D object dataset from the existing Objaverse dataset. Extensive experimental results on multiple datasets and user studies demonstrate SV4D's state-of-the-art performance on novel-view video synthesis as well as 4D generation compared to prior works.

Summary

AI-Generated Summary

PDF162November 28, 2024