Modèles de Diffusion Latente 3D AutoDécodants
AutoDecoding Latent 3D Diffusion Models
July 7, 2023
Auteurs: Evangelos Ntavelis, Aliaksandr Siarohin, Kyle Olszewski, Chaoyang Wang, Luc Van Gool, Sergey Tulyakov
cs.AI
Résumé
Nous présentons une nouvelle approche pour la génération d'actifs 3D statiques et articulés, centrée autour d'un auto-décodeur 3D. Le cadre de l'auto-décodeur 3D intègre les propriétés apprises à partir du jeu de données cible dans un espace latent, qui peut ensuite être décodé en une représentation volumétrique pour produire une apparence et une géométrie cohérentes selon la vue. Nous identifions ensuite l'espace latent volumétrique intermédiaire approprié et introduisons des opérations robustes de normalisation et dénormalisation pour apprendre une diffusion 3D à partir d'images 2D ou de vidéos monoculaires d'objets rigides ou articulés. Notre approche est suffisamment flexible pour utiliser soit une supervision de caméra existante, soit aucune information de caméra — apprenant plutôt celle-ci de manière efficace pendant l'entraînement. Nos évaluations démontrent que nos résultats de génération surpassent les alternatives de pointe sur divers jeux de données de référence et métriques, incluant des ensembles d'images multi-vues d'objets synthétiques, des vidéos réelles en conditions réelles de personnes en mouvement, et un grand ensemble de données de vidéos réelles d'objets statiques.
English
We present a novel approach to the generation of static and articulated 3D
assets that has a 3D autodecoder at its core. The 3D autodecoder framework
embeds properties learned from the target dataset in the latent space, which
can then be decoded into a volumetric representation for rendering
view-consistent appearance and geometry. We then identify the appropriate
intermediate volumetric latent space, and introduce robust normalization and
de-normalization operations to learn a 3D diffusion from 2D images or monocular
videos of rigid or articulated objects. Our approach is flexible enough to use
either existing camera supervision or no camera information at all -- instead
efficiently learning it during training. Our evaluations demonstrate that our
generation results outperform state-of-the-art alternatives on various
benchmark datasets and metrics, including multi-view image datasets of
synthetic objects, real in-the-wild videos of moving people, and a large-scale,
real video dataset of static objects.