ChatPaper.aiChatPaper

3D Gaussiaanse Scènes in Seconden Samplen met Latente Diffusiemodellen

Sampling 3D Gaussian Scenes in Seconds with Latent Diffusion Models

June 18, 2024
Auteurs: Paul Henderson, Melonie de Almeida, Daniela Ivanova, Titas Anciukevičius
cs.AI

Samenvatting

We presenteren een latent diffusiemodel voor 3D-scènes, dat getraind kan worden met alleen 2D-beeldgegevens. Om dit te bereiken, ontwerpen we eerst een autoencoder die multi-view beelden afbeeldt op 3D Gaussische splats, en tegelijkertijd een gecomprimeerde latente representatie van deze splats opbouwt. Vervolgens trainen we een multi-view diffusiemodel over de latente ruimte om een efficiënt generatief model te leren. Deze pijplijn vereist geen objectmaskers noch dieptes, en is geschikt voor complexe scènes met willekeurige cameraposities. We voeren zorgvuldige experimenten uit op twee grootschalige datasets van complexe real-world scènes — MVImgNet en RealEstate10K. We tonen aan dat onze aanpak het mogelijk maakt om 3D-scènes te genereren in slechts 0,2 seconden, ofwel vanaf nul, vanuit een enkele invoerweergave, of vanuit spaarzame invoerweergaven. Het produceert diverse en hoogwaardige resultaten terwijl het een orde van grootte sneller werkt dan niet-latente diffusiemodellen en eerdere NeRF-gebaseerde generatieve modellen.
English
We present a latent diffusion model over 3D scenes, that can be trained using only 2D image data. To achieve this, we first design an autoencoder that maps multi-view images to 3D Gaussian splats, and simultaneously builds a compressed latent representation of these splats. Then, we train a multi-view diffusion model over the latent space to learn an efficient generative model. This pipeline does not require object masks nor depths, and is suitable for complex scenes with arbitrary camera positions. We conduct careful experiments on two large-scale datasets of complex real-world scenes -- MVImgNet and RealEstate10K. We show that our approach enables generating 3D scenes in as little as 0.2 seconds, either from scratch, from a single input view, or from sparse input views. It produces diverse and high-quality results while running an order of magnitude faster than non-latent diffusion models and earlier NeRF-based generative models
PDF41December 2, 2024