ChatPaper.aiChatPaper

AutoDecoding di Modelli di Diffusione Latenti 3D

AutoDecoding Latent 3D Diffusion Models

July 7, 2023
Autori: Evangelos Ntavelis, Aliaksandr Siarohin, Kyle Olszewski, Chaoyang Wang, Luc Van Gool, Sergey Tulyakov
cs.AI

Abstract

Presentiamo un approccio innovativo alla generazione di asset 3D statici e articolati, che ha al suo centro un autodecodificatore 3D. Il framework dell'autodecodificatore 3D incorpora le proprietà apprese dal dataset di riferimento nello spazio latente, che può poi essere decodificato in una rappresentazione volumetrica per il rendering di aspetto e geometria coerenti con la vista. Identifichiamo quindi lo spazio latente volumetrico intermedio appropriato e introduciamo operazioni robuste di normalizzazione e denormalizzazione per apprendere una diffusione 3D a partire da immagini 2D o video monoculari di oggetti rigidi o articolati. Il nostro approccio è abbastanza flessibile da poter utilizzare sia la supervisione della camera esistente che nessuna informazione sulla camera, apprendendola invece in modo efficiente durante l'addestramento. Le nostre valutazioni dimostrano che i risultati della nostra generazione superano le alternative più avanzate su vari dataset di benchmark e metriche, inclusi dataset di immagini multi-vista di oggetti sintetici, video reali in ambienti naturali di persone in movimento e un ampio dataset di video reali di oggetti statici.
English
We present a novel approach to the generation of static and articulated 3D assets that has a 3D autodecoder at its core. The 3D autodecoder framework embeds properties learned from the target dataset in the latent space, which can then be decoded into a volumetric representation for rendering view-consistent appearance and geometry. We then identify the appropriate intermediate volumetric latent space, and introduce robust normalization and de-normalization operations to learn a 3D diffusion from 2D images or monocular videos of rigid or articulated objects. Our approach is flexible enough to use either existing camera supervision or no camera information at all -- instead efficiently learning it during training. Our evaluations demonstrate that our generation results outperform state-of-the-art alternatives on various benchmark datasets and metrics, including multi-view image datasets of synthetic objects, real in-the-wild videos of moving people, and a large-scale, real video dataset of static objects.
PDF140December 15, 2024