LucidDreamer: Geração Livre de Domínio de Cenas com Splatting Gaussiano 3D
LucidDreamer: Domain-free Generation of 3D Gaussian Splatting Scenes
November 22, 2023
Autores: Jaeyoung Chung, Suyoung Lee, Hyeongjin Nam, Jaerin Lee, Kyoung Mu Lee
cs.AI
Resumo
Com o uso generalizado de dispositivos e conteúdos de realidade virtual, as demandas por técnicas de geração de cenas 3D tornaram-se mais populares. No entanto, os modelos existentes de geração de cenas 3D limitam a cena alvo a domínios específicos, principalmente devido às suas estratégias de treinamento que utilizam conjuntos de dados de varredura 3D distantes do mundo real. Para abordar essa limitação, propomos o LucidDreamer, um pipeline de geração de cenas sem restrição de domínio, aproveitando ao máximo o poder de modelos generativos baseados em difusão em larga escala existentes. Nosso LucidDreamer possui dois passos alternados: Sonho e Alinhamento. Primeiro, para gerar imagens consistentes de múltiplas perspectivas a partir de entradas, definimos a nuvem de pontos como uma diretriz geométrica para cada geração de imagem. Especificamente, projetamos uma porção da nuvem de pontos para a perspectiva desejada e fornecemos a projeção como uma orientação para a reconstrução de imagens usando o modelo generativo. As imagens reconstruídas são elevadas ao espaço 3D com mapas de profundidade estimados, compondo novos pontos. Segundo, para agregar os novos pontos à cena 3D, propomos um algoritmo de alinhamento que integra harmoniosamente as porções das cenas 3D recém-geradas. A cena 3D finalmente obtida serve como pontos iniciais para a otimização de splats gaussianos. O LucidDreamer produz splats gaussianos altamente detalhados em comparação com os métodos anteriores de geração de cenas 3D, sem restrição de domínio da cena alvo.
English
With the widespread usage of VR devices and contents, demands for 3D scene
generation techniques become more popular. Existing 3D scene generation models,
however, limit the target scene to specific domain, primarily due to their
training strategies using 3D scan dataset that is far from the real-world. To
address such limitation, we propose LucidDreamer, a domain-free scene
generation pipeline by fully leveraging the power of existing large-scale
diffusion-based generative model. Our LucidDreamer has two alternate steps:
Dreaming and Alignment. First, to generate multi-view consistent images from
inputs, we set the point cloud as a geometrical guideline for each image
generation. Specifically, we project a portion of point cloud to the desired
view and provide the projection as a guidance for inpainting using the
generative model. The inpainted images are lifted to 3D space with estimated
depth maps, composing a new points. Second, to aggregate the new points into
the 3D scene, we propose an aligning algorithm which harmoniously integrates
the portions of newly generated 3D scenes. The finally obtained 3D scene serves
as initial points for optimizing Gaussian splats. LucidDreamer produces
Gaussian splats that are highly-detailed compared to the previous 3D scene
generation methods, with no constraint on domain of the target scene.