LucidDreamer: Generación de Escenas con Splatting Gaussiano 3D Independiente del Dominio
LucidDreamer: Domain-free Generation of 3D Gaussian Splatting Scenes
November 22, 2023
Autores: Jaeyoung Chung, Suyoung Lee, Hyeongjin Nam, Jaerin Lee, Kyoung Mu Lee
cs.AI
Resumen
Con el uso generalizado de dispositivos y contenidos de realidad virtual, las demandas de técnicas de generación de escenas 3D se han vuelto más populares. Sin embargo, los modelos existentes de generación de escenas 3D limitan la escena objetivo a dominios específicos, principalmente debido a sus estrategias de entrenamiento que utilizan conjuntos de datos de escaneos 3D que distan mucho de representar el mundo real. Para abordar esta limitación, proponemos LucidDreamer, una pipeline de generación de escenas sin restricciones de dominio que aprovecha al máximo el poder de los modelos generativos basados en difusión a gran escala existentes. Nuestro LucidDreamer consta de dos pasos alternos: Sueño y Alineación. Primero, para generar imágenes consistentes desde múltiples vistas a partir de entradas, utilizamos una nube de puntos como guía geométrica para la generación de cada imagen. Específicamente, proyectamos una porción de la nube de puntos en la vista deseada y proporcionamos la proyección como guía para la reconstrucción de imágenes utilizando el modelo generativo. Las imágenes reconstruidas se elevan al espacio 3D con mapas de profundidad estimados, componiendo nuevos puntos. Segundo, para agregar los nuevos puntos a la escena 3D, proponemos un algoritmo de alineación que integra armoniosamente las porciones de las escenas 3D recién generadas. La escena 3D finalmente obtenida sirve como puntos iniciales para optimizar los splats gaussianos. LucidDreamer produce splats gaussianos altamente detallados en comparación con los métodos anteriores de generación de escenas 3D, sin restricciones en el dominio de la escena objetivo.
English
With the widespread usage of VR devices and contents, demands for 3D scene
generation techniques become more popular. Existing 3D scene generation models,
however, limit the target scene to specific domain, primarily due to their
training strategies using 3D scan dataset that is far from the real-world. To
address such limitation, we propose LucidDreamer, a domain-free scene
generation pipeline by fully leveraging the power of existing large-scale
diffusion-based generative model. Our LucidDreamer has two alternate steps:
Dreaming and Alignment. First, to generate multi-view consistent images from
inputs, we set the point cloud as a geometrical guideline for each image
generation. Specifically, we project a portion of point cloud to the desired
view and provide the projection as a guidance for inpainting using the
generative model. The inpainted images are lifted to 3D space with estimated
depth maps, composing a new points. Second, to aggregate the new points into
the 3D scene, we propose an aligning algorithm which harmoniously integrates
the portions of newly generated 3D scenes. The finally obtained 3D scene serves
as initial points for optimizing Gaussian splats. LucidDreamer produces
Gaussian splats that are highly-detailed compared to the previous 3D scene
generation methods, with no constraint on domain of the target scene.