ChatPaper.aiChatPaper

AutoDecoding Latent 3D Diffusionsmodelle

AutoDecoding Latent 3D Diffusion Models

July 7, 2023
Autoren: Evangelos Ntavelis, Aliaksandr Siarohin, Kyle Olszewski, Chaoyang Wang, Luc Van Gool, Sergey Tulyakov
cs.AI

Zusammenfassung

Wir präsentieren einen neuartigen Ansatz zur Generierung statischer und artikulierter 3D-Assets, der einen 3D-Autodecoder als Kernkomponente nutzt. Das 3D-Autodecoder-Framework integriert Eigenschaften, die aus dem Ziel-Datensatz gelernt wurden, in den latenten Raum, der anschließend in eine volumetrische Darstellung dekodiert werden kann, um konsistente Ansichten von Erscheinung und Geometrie zu rendern. Wir identifizieren den geeigneten intermediären volumetrischen latenten Raum und führen robuste Normalisierungs- und Denormalisierungsoperationen ein, um eine 3D-Diffusion aus 2D-Bildern oder monokularen Videos von starren oder artikulierten Objekten zu lernen. Unser Ansatz ist flexibel genug, um entweder vorhandene Kamerainformationen zu nutzen oder ganz darauf zu verzichten – stattdessen wird diese effizient während des Trainings erlernt. Unsere Evaluierungen zeigen, dass unsere Generierungsergebnisse state-of-the-art Alternativen auf verschiedenen Benchmark-Datensätzen und Metriken übertreffen, einschließlich Multi-View-Bilddatensätzen synthetischer Objekte, realer Videos von sich bewegenden Personen in natürlicher Umgebung und eines groß angelegten, realen Video-Datensatzes statischer Objekte.
English
We present a novel approach to the generation of static and articulated 3D assets that has a 3D autodecoder at its core. The 3D autodecoder framework embeds properties learned from the target dataset in the latent space, which can then be decoded into a volumetric representation for rendering view-consistent appearance and geometry. We then identify the appropriate intermediate volumetric latent space, and introduce robust normalization and de-normalization operations to learn a 3D diffusion from 2D images or monocular videos of rigid or articulated objects. Our approach is flexible enough to use either existing camera supervision or no camera information at all -- instead efficiently learning it during training. Our evaluations demonstrate that our generation results outperform state-of-the-art alternatives on various benchmark datasets and metrics, including multi-view image datasets of synthetic objects, real in-the-wild videos of moving people, and a large-scale, real video dataset of static objects.
PDF140December 15, 2024