LucidDreamer: Generazione senza dominio di scene 3D con Gaussian Splatting
LucidDreamer: Domain-free Generation of 3D Gaussian Splatting Scenes
November 22, 2023
Autori: Jaeyoung Chung, Suyoung Lee, Hyeongjin Nam, Jaerin Lee, Kyoung Mu Lee
cs.AI
Abstract
Con l'ampia diffusione di dispositivi e contenuti VR, le richieste per tecniche di generazione di scene 3D stanno diventando sempre più popolari. I modelli esistenti per la generazione di scene 3D, tuttavia, limitano la scena target a domini specifici, principalmente a causa delle loro strategie di addestramento che utilizzano dataset di scansioni 3D lontani dal mondo reale. Per affrontare tale limitazione, proponiamo LucidDreamer, una pipeline di generazione di scene senza vincoli di dominio, sfruttando appieno la potenza dei modelli generativi basati su diffusione su larga scala esistenti. Il nostro LucidDreamer prevede due passaggi alternati: Dreaming e Alignment. Innanzitutto, per generare immagini coerenti da più prospettive a partire dagli input, utilizziamo la nuvola di punti come guida geometrica per la generazione di ciascuna immagine. Nello specifico, proiettiamo una porzione della nuvola di punti nella vista desiderata e forniamo la proiezione come guida per l'inpainting utilizzando il modello generativo. Le immagini ricostruite vengono elevate nello spazio 3D con mappe di profondità stimate, componendo nuovi punti. In secondo luogo, per aggregare i nuovi punti nella scena 3D, proponiamo un algoritmo di allineamento che integra armoniosamente le porzioni di scene 3D appena generate. La scena 3D ottenuta alla fine serve come punti iniziali per ottimizzare gli splat gaussiani. LucidDreamer produce splat gaussiani altamente dettagliati rispetto ai precedenti metodi di generazione di scene 3D, senza vincoli sul dominio della scena target.
English
With the widespread usage of VR devices and contents, demands for 3D scene
generation techniques become more popular. Existing 3D scene generation models,
however, limit the target scene to specific domain, primarily due to their
training strategies using 3D scan dataset that is far from the real-world. To
address such limitation, we propose LucidDreamer, a domain-free scene
generation pipeline by fully leveraging the power of existing large-scale
diffusion-based generative model. Our LucidDreamer has two alternate steps:
Dreaming and Alignment. First, to generate multi-view consistent images from
inputs, we set the point cloud as a geometrical guideline for each image
generation. Specifically, we project a portion of point cloud to the desired
view and provide the projection as a guidance for inpainting using the
generative model. The inpainted images are lifted to 3D space with estimated
depth maps, composing a new points. Second, to aggregate the new points into
the 3D scene, we propose an aligning algorithm which harmoniously integrates
the portions of newly generated 3D scenes. The finally obtained 3D scene serves
as initial points for optimizing Gaussian splats. LucidDreamer produces
Gaussian splats that are highly-detailed compared to the previous 3D scene
generation methods, with no constraint on domain of the target scene.