LucidDreamer: Geração Livre de Domínio de Cenas com Splatting Gaussiano 3D

Resumo

Com o uso generalizado de dispositivos e conteúdos de realidade virtual, as demandas por técnicas de geração de cenas 3D tornaram-se mais populares. No entanto, os modelos existentes de geração de cenas 3D limitam a cena alvo a domínios específicos, principalmente devido às suas estratégias de treinamento que utilizam conjuntos de dados de varredura 3D distantes do mundo real. Para abordar essa limitação, propomos o LucidDreamer, um pipeline de geração de cenas sem restrição de domínio, aproveitando ao máximo o poder de modelos generativos baseados em difusão em larga escala existentes. Nosso LucidDreamer possui dois passos alternados: Sonho e Alinhamento. Primeiro, para gerar imagens consistentes de múltiplas perspectivas a partir de entradas, definimos a nuvem de pontos como uma diretriz geométrica para cada geração de imagem. Especificamente, projetamos uma porção da nuvem de pontos para a perspectiva desejada e fornecemos a projeção como uma orientação para a reconstrução de imagens usando o modelo generativo. As imagens reconstruídas são elevadas ao espaço 3D com mapas de profundidade estimados, compondo novos pontos. Segundo, para agregar os novos pontos à cena 3D, propomos um algoritmo de alinhamento que integra harmoniosamente as porções das cenas 3D recém-geradas. A cena 3D finalmente obtida serve como pontos iniciais para a otimização de splats gaussianos. O LucidDreamer produz splats gaussianos altamente detalhados em comparação com os métodos anteriores de geração de cenas 3D, sem restrição de domínio da cena alvo.

English

With the widespread usage of VR devices and contents, demands for 3D scene generation techniques become more popular. Existing 3D scene generation models, however, limit the target scene to specific domain, primarily due to their training strategies using 3D scan dataset that is far from the real-world. To address such limitation, we propose LucidDreamer, a domain-free scene generation pipeline by fully leveraging the power of existing large-scale diffusion-based generative model. Our LucidDreamer has two alternate steps: Dreaming and Alignment. First, to generate multi-view consistent images from inputs, we set the point cloud as a geometrical guideline for each image generation. Specifically, we project a portion of point cloud to the desired view and provide the projection as a guidance for inpainting using the generative model. The inpainted images are lifted to 3D space with estimated depth maps, composing a new points. Second, to aggregate the new points into the 3D scene, we propose an aligning algorithm which harmoniously integrates the portions of newly generated 3D scenes. The finally obtained 3D scene serves as initial points for optimizing Gaussian splats. LucidDreamer produces Gaussian splats that are highly-detailed compared to the previous 3D scene generation methods, with no constraint on domain of the target scene.

LucidDreamer: Geração Livre de Domínio de Cenas com Splatting Gaussiano 3D

LucidDreamer: Domain-free Generation of 3D Gaussian Splatting Scenes

Resumo

Support