Muestreo de Escenas 3D Gaussianas en Segundos con Modelos de Difusión Latente
Sampling 3D Gaussian Scenes in Seconds with Latent Diffusion Models
June 18, 2024
Autores: Paul Henderson, Melonie de Almeida, Daniela Ivanova, Titas Anciukevičius
cs.AI
Resumen
Presentamos un modelo de difusión latente sobre escenas 3D que puede entrenarse utilizando únicamente datos de imágenes 2D. Para lograrlo, primero diseñamos un autocodificador que mapea imágenes multivista a splats Gaussianos 3D, y simultáneamente construye una representación latente comprimida de estos splats. Luego, entrenamos un modelo de difusión multivista sobre el espacio latente para aprender un modelo generativo eficiente. Este pipeline no requiere máscaras de objetos ni profundidades, y es adecuado para escenas complejas con posiciones arbitrarias de cámara. Realizamos experimentos cuidadosos en dos conjuntos de datos a gran escala de escenas complejas del mundo real: MVImgNet y RealEstate10K. Demostramos que nuestro enfoque permite generar escenas 3D en tan solo 0.2 segundos, ya sea desde cero, desde una única vista de entrada o desde vistas de entrada dispersas. Produce resultados diversos y de alta calidad mientras funciona un orden de magnitud más rápido que los modelos de difusión no latentes y los modelos generativos basados en NeRF anteriores.
English
We present a latent diffusion model over 3D scenes, that can be trained using
only 2D image data. To achieve this, we first design an autoencoder that maps
multi-view images to 3D Gaussian splats, and simultaneously builds a compressed
latent representation of these splats. Then, we train a multi-view diffusion
model over the latent space to learn an efficient generative model. This
pipeline does not require object masks nor depths, and is suitable for complex
scenes with arbitrary camera positions. We conduct careful experiments on two
large-scale datasets of complex real-world scenes -- MVImgNet and
RealEstate10K. We show that our approach enables generating 3D scenes in as
little as 0.2 seconds, either from scratch, from a single input view, or from
sparse input views. It produces diverse and high-quality results while running
an order of magnitude faster than non-latent diffusion models and earlier
NeRF-based generative modelsSummary
AI-Generated Summary