ChatPaper.aiChatPaper

Modèles de Diffusion Latente 3D AutoDécodants

AutoDecoding Latent 3D Diffusion Models

July 7, 2023
Auteurs: Evangelos Ntavelis, Aliaksandr Siarohin, Kyle Olszewski, Chaoyang Wang, Luc Van Gool, Sergey Tulyakov
cs.AI

Résumé

Nous présentons une nouvelle approche pour la génération d'actifs 3D statiques et articulés, centrée autour d'un auto-décodeur 3D. Le cadre de l'auto-décodeur 3D intègre les propriétés apprises à partir du jeu de données cible dans un espace latent, qui peut ensuite être décodé en une représentation volumétrique pour produire une apparence et une géométrie cohérentes selon la vue. Nous identifions ensuite l'espace latent volumétrique intermédiaire approprié et introduisons des opérations robustes de normalisation et dénormalisation pour apprendre une diffusion 3D à partir d'images 2D ou de vidéos monoculaires d'objets rigides ou articulés. Notre approche est suffisamment flexible pour utiliser soit une supervision de caméra existante, soit aucune information de caméra — apprenant plutôt celle-ci de manière efficace pendant l'entraînement. Nos évaluations démontrent que nos résultats de génération surpassent les alternatives de pointe sur divers jeux de données de référence et métriques, incluant des ensembles d'images multi-vues d'objets synthétiques, des vidéos réelles en conditions réelles de personnes en mouvement, et un grand ensemble de données de vidéos réelles d'objets statiques.
English
We present a novel approach to the generation of static and articulated 3D assets that has a 3D autodecoder at its core. The 3D autodecoder framework embeds properties learned from the target dataset in the latent space, which can then be decoded into a volumetric representation for rendering view-consistent appearance and geometry. We then identify the appropriate intermediate volumetric latent space, and introduce robust normalization and de-normalization operations to learn a 3D diffusion from 2D images or monocular videos of rigid or articulated objects. Our approach is flexible enough to use either existing camera supervision or no camera information at all -- instead efficiently learning it during training. Our evaluations demonstrate that our generation results outperform state-of-the-art alternatives on various benchmark datasets and metrics, including multi-view image datasets of synthetic objects, real in-the-wild videos of moving people, and a large-scale, real video dataset of static objects.
PDF140December 15, 2024