3D Gaussiaanse Scènes in Seconden Samplen met Latente Diffusiemodellen
Sampling 3D Gaussian Scenes in Seconds with Latent Diffusion Models
June 18, 2024
Auteurs: Paul Henderson, Melonie de Almeida, Daniela Ivanova, Titas Anciukevičius
cs.AI
Samenvatting
We presenteren een latent diffusiemodel voor 3D-scènes, dat getraind kan worden met alleen 2D-beeldgegevens. Om dit te bereiken, ontwerpen we eerst een autoencoder die multi-view beelden afbeeldt op 3D Gaussische splats, en tegelijkertijd een gecomprimeerde latente representatie van deze splats opbouwt. Vervolgens trainen we een multi-view diffusiemodel over de latente ruimte om een efficiënt generatief model te leren. Deze pijplijn vereist geen objectmaskers noch dieptes, en is geschikt voor complexe scènes met willekeurige cameraposities. We voeren zorgvuldige experimenten uit op twee grootschalige datasets van complexe real-world scènes — MVImgNet en RealEstate10K. We tonen aan dat onze aanpak het mogelijk maakt om 3D-scènes te genereren in slechts 0,2 seconden, ofwel vanaf nul, vanuit een enkele invoerweergave, of vanuit spaarzame invoerweergaven. Het produceert diverse en hoogwaardige resultaten terwijl het een orde van grootte sneller werkt dan niet-latente diffusiemodellen en eerdere NeRF-gebaseerde generatieve modellen.
English
We present a latent diffusion model over 3D scenes, that can be trained using
only 2D image data. To achieve this, we first design an autoencoder that maps
multi-view images to 3D Gaussian splats, and simultaneously builds a compressed
latent representation of these splats. Then, we train a multi-view diffusion
model over the latent space to learn an efficient generative model. This
pipeline does not require object masks nor depths, and is suitable for complex
scenes with arbitrary camera positions. We conduct careful experiments on two
large-scale datasets of complex real-world scenes -- MVImgNet and
RealEstate10K. We show that our approach enables generating 3D scenes in as
little as 0.2 seconds, either from scratch, from a single input view, or from
sparse input views. It produces diverse and high-quality results while running
an order of magnitude faster than non-latent diffusion models and earlier
NeRF-based generative models