Échantillonnage de scènes 3D gaussiennes en quelques secondes avec des modèles de diffusion latente

Résumé

Nous présentons un modèle de diffusion latente sur des scènes 3D, qui peut être entraîné en utilisant uniquement des données d'images 2D. Pour y parvenir, nous concevons d'abord un autoencodeur qui transforme des images multi-vues en splats gaussiens 3D, tout en construisant simultanément une représentation latente compressée de ces splats. Ensuite, nous entraînons un modèle de diffusion multi-vues sur l'espace latent pour apprendre un modèle génératif efficace. Ce pipeline ne nécessite ni masques d'objets ni informations de profondeur, et convient à des scènes complexes avec des positions de caméra arbitraires. Nous menons des expériences minutieuses sur deux ensembles de données à grande échelle de scènes réelles complexes -- MVImgNet et RealEstate10K. Nous montrons que notre approche permet de générer des scènes 3D en aussi peu que 0,2 seconde, soit à partir de zéro, d'une seule vue d'entrée, ou de vues d'entrée éparses. Elle produit des résultats diversifiés et de haute qualité tout en fonctionnant un ordre de grandeur plus rapidement que les modèles de diffusion non latents et les modèles génératifs basés sur NeRF antérieurs.

English

We present a latent diffusion model over 3D scenes, that can be trained using only 2D image data. To achieve this, we first design an autoencoder that maps multi-view images to 3D Gaussian splats, and simultaneously builds a compressed latent representation of these splats. Then, we train a multi-view diffusion model over the latent space to learn an efficient generative model. This pipeline does not require object masks nor depths, and is suitable for complex scenes with arbitrary camera positions. We conduct careful experiments on two large-scale datasets of complex real-world scenes -- MVImgNet and RealEstate10K. We show that our approach enables generating 3D scenes in as little as 0.2 seconds, either from scratch, from a single input view, or from sparse input views. It produces diverse and high-quality results while running an order of magnitude faster than non-latent diffusion models and earlier NeRF-based generative models

Échantillonnage de scènes 3D gaussiennes en quelques secondes avec des modèles de diffusion latente

Sampling 3D Gaussian Scenes in Seconds with Latent Diffusion Models

Résumé

Support