ChatPaper.aiChatPaper

Muestreo de Escenas 3D Gaussianas en Segundos con Modelos de Difusión Latente

Sampling 3D Gaussian Scenes in Seconds with Latent Diffusion Models

June 18, 2024
Autores: Paul Henderson, Melonie de Almeida, Daniela Ivanova, Titas Anciukevičius
cs.AI

Resumen

Presentamos un modelo de difusión latente sobre escenas 3D que puede entrenarse utilizando únicamente datos de imágenes 2D. Para lograrlo, primero diseñamos un autocodificador que mapea imágenes multivista a splats Gaussianos 3D, y simultáneamente construye una representación latente comprimida de estos splats. Luego, entrenamos un modelo de difusión multivista sobre el espacio latente para aprender un modelo generativo eficiente. Este pipeline no requiere máscaras de objetos ni profundidades, y es adecuado para escenas complejas con posiciones arbitrarias de cámara. Realizamos experimentos cuidadosos en dos conjuntos de datos a gran escala de escenas complejas del mundo real: MVImgNet y RealEstate10K. Demostramos que nuestro enfoque permite generar escenas 3D en tan solo 0.2 segundos, ya sea desde cero, desde una única vista de entrada o desde vistas de entrada dispersas. Produce resultados diversos y de alta calidad mientras funciona un orden de magnitud más rápido que los modelos de difusión no latentes y los modelos generativos basados en NeRF anteriores.
English
We present a latent diffusion model over 3D scenes, that can be trained using only 2D image data. To achieve this, we first design an autoencoder that maps multi-view images to 3D Gaussian splats, and simultaneously builds a compressed latent representation of these splats. Then, we train a multi-view diffusion model over the latent space to learn an efficient generative model. This pipeline does not require object masks nor depths, and is suitable for complex scenes with arbitrary camera positions. We conduct careful experiments on two large-scale datasets of complex real-world scenes -- MVImgNet and RealEstate10K. We show that our approach enables generating 3D scenes in as little as 0.2 seconds, either from scratch, from a single input view, or from sparse input views. It produces diverse and high-quality results while running an order of magnitude faster than non-latent diffusion models and earlier NeRF-based generative models

Summary

AI-Generated Summary

PDF41December 2, 2024