Échantillonnage de scènes 3D gaussiennes en quelques secondes avec des modèles de diffusion latente
Sampling 3D Gaussian Scenes in Seconds with Latent Diffusion Models
June 18, 2024
Auteurs: Paul Henderson, Melonie de Almeida, Daniela Ivanova, Titas Anciukevičius
cs.AI
Résumé
Nous présentons un modèle de diffusion latente sur des scènes 3D, qui peut être entraîné en utilisant uniquement des données d'images 2D. Pour y parvenir, nous concevons d'abord un autoencodeur qui transforme des images multi-vues en splats gaussiens 3D, tout en construisant simultanément une représentation latente compressée de ces splats. Ensuite, nous entraînons un modèle de diffusion multi-vues sur l'espace latent pour apprendre un modèle génératif efficace. Ce pipeline ne nécessite ni masques d'objets ni informations de profondeur, et convient à des scènes complexes avec des positions de caméra arbitraires. Nous menons des expériences minutieuses sur deux ensembles de données à grande échelle de scènes réelles complexes -- MVImgNet et RealEstate10K. Nous montrons que notre approche permet de générer des scènes 3D en aussi peu que 0,2 seconde, soit à partir de zéro, d'une seule vue d'entrée, ou de vues d'entrée éparses. Elle produit des résultats diversifiés et de haute qualité tout en fonctionnant un ordre de grandeur plus rapidement que les modèles de diffusion non latents et les modèles génératifs basés sur NeRF antérieurs.
English
We present a latent diffusion model over 3D scenes, that can be trained using
only 2D image data. To achieve this, we first design an autoencoder that maps
multi-view images to 3D Gaussian splats, and simultaneously builds a compressed
latent representation of these splats. Then, we train a multi-view diffusion
model over the latent space to learn an efficient generative model. This
pipeline does not require object masks nor depths, and is suitable for complex
scenes with arbitrary camera positions. We conduct careful experiments on two
large-scale datasets of complex real-world scenes -- MVImgNet and
RealEstate10K. We show that our approach enables generating 3D scenes in as
little as 0.2 seconds, either from scratch, from a single input view, or from
sparse input views. It produces diverse and high-quality results while running
an order of magnitude faster than non-latent diffusion models and earlier
NeRF-based generative modelsSummary
AI-Generated Summary