Campionamento di Scene 3D Gaussiane in Secondi con Modelli di Diffusione Latente
Sampling 3D Gaussian Scenes in Seconds with Latent Diffusion Models
June 18, 2024
Autori: Paul Henderson, Melonie de Almeida, Daniela Ivanova, Titas Anciukevičius
cs.AI
Abstract
Presentiamo un modello di diffusione latente su scene 3D, che può essere addestrato utilizzando esclusivamente dati di immagini 2D. Per raggiungere questo obiettivo, progettiamo innanzitutto un autoencoder che mappa immagini multi-vista in splat Gaussiani 3D, costruendo simultaneamente una rappresentazione latente compressa di questi splat. Successivamente, addestriamo un modello di diffusione multi-vista sullo spazio latente per apprendere un modello generativo efficiente. Questa pipeline non richiede maschere di oggetti né informazioni sulla profondità, ed è adatta per scene complesse con posizioni arbitrarie della telecamera. Condurre esperimenti accurati su due dataset su larga scala di scene complesse del mondo reale -- MVImgNet e RealEstate10K. Dimostriamo che il nostro approccio consente di generare scene 3D in appena 0,2 secondi, sia da zero, da una singola vista di input, o da viste di input sparse. Produce risultati diversificati e di alta qualità, operando con un ordine di grandezza più veloce rispetto ai modelli di diffusione non latenti e ai precedenti modelli generativi basati su NeRF.
English
We present a latent diffusion model over 3D scenes, that can be trained using
only 2D image data. To achieve this, we first design an autoencoder that maps
multi-view images to 3D Gaussian splats, and simultaneously builds a compressed
latent representation of these splats. Then, we train a multi-view diffusion
model over the latent space to learn an efficient generative model. This
pipeline does not require object masks nor depths, and is suitable for complex
scenes with arbitrary camera positions. We conduct careful experiments on two
large-scale datasets of complex real-world scenes -- MVImgNet and
RealEstate10K. We show that our approach enables generating 3D scenes in as
little as 0.2 seconds, either from scratch, from a single input view, or from
sparse input views. It produces diverse and high-quality results while running
an order of magnitude faster than non-latent diffusion models and earlier
NeRF-based generative models