4Real : Vers la génération photoréaliste de scènes 4D via des modèles de diffusion vidéo
4Real: Towards Photorealistic 4D Scene Generation via Video Diffusion Models
June 11, 2024
Auteurs: Heng Yu, Chaoyang Wang, Peiye Zhuang, Willi Menapace, Aliaksandr Siarohin, Junli Cao, Laszlo A Jeni, Sergey Tulyakov, Hsin-Ying Lee
cs.AI
Résumé
Les méthodes existantes de génération de scènes dynamiques reposent principalement sur la distillation de connaissances à partir de modèles génératifs 3D pré-entraînés, généralement affinés sur des ensembles de données d'objets synthétiques. En conséquence, les scènes générées sont souvent centrées sur des objets et manquent de photoréalisme. Pour surmonter ces limitations, nous proposons une nouvelle pipeline conçue pour la génération photoréaliste de scènes 4D à partir de texte, abandonnant la dépendance aux modèles génératifs multi-vues et exploitant pleinement des modèles génératifs vidéo entraînés sur des ensembles de données variés issus du monde réel. Notre méthode commence par générer une vidéo de référence à l'aide du modèle de génération vidéo. Nous apprenons ensuite la représentation 3D canonique de la vidéo en utilisant une vidéo "temps figé", générée avec soin à partir de la vidéo de référence. Pour gérer les incohérences dans la vidéo temps figé, nous apprenons conjointement une déformation par image pour modéliser ces imperfections. Nous apprenons ensuite la déformation temporelle basée sur la représentation canonique pour capturer les interactions dynamiques dans la vidéo de référence. Cette pipeline facilite la génération de scènes dynamiques avec un photoréalisme accru et une intégrité structurelle, visibles sous plusieurs angles, établissant ainsi un nouveau standard dans la génération de scènes 4D.
English
Existing dynamic scene generation methods mostly rely on distilling knowledge
from pre-trained 3D generative models, which are typically fine-tuned on
synthetic object datasets. As a result, the generated scenes are often
object-centric and lack photorealism. To address these limitations, we
introduce a novel pipeline designed for photorealistic text-to-4D scene
generation, discarding the dependency on multi-view generative models and
instead fully utilizing video generative models trained on diverse real-world
datasets. Our method begins by generating a reference video using the video
generation model. We then learn the canonical 3D representation of the video
using a freeze-time video, delicately generated from the reference video. To
handle inconsistencies in the freeze-time video, we jointly learn a per-frame
deformation to model these imperfections. We then learn the temporal
deformation based on the canonical representation to capture dynamic
interactions in the reference video. The pipeline facilitates the generation of
dynamic scenes with enhanced photorealism and structural integrity, viewable
from multiple perspectives, thereby setting a new standard in 4D scene
generation.Summary
AI-Generated Summary