LucidDreamer : Génération sans domaine de scènes par projection de Gaussiennes 3D
LucidDreamer: Domain-free Generation of 3D Gaussian Splatting Scenes
November 22, 2023
Auteurs: Jaeyoung Chung, Suyoung Lee, Hyeongjin Nam, Jaerin Lee, Kyoung Mu Lee
cs.AI
Résumé
Avec l'utilisation généralisée des dispositifs et contenus de réalité virtuelle (VR), les demandes pour les techniques de génération de scènes 3D deviennent de plus en plus populaires. Cependant, les modèles existants de génération de scènes 3D limitent la scène cible à un domaine spécifique, principalement en raison de leurs stratégies d'entraînement utilisant des jeux de données de scans 3D qui sont éloignés de la réalité. Pour répondre à cette limitation, nous proposons LucidDreamer, un pipeline de génération de scènes sans domaine, en exploitant pleinement la puissance des modèles génératifs à grande échelle basés sur la diffusion. Notre LucidDreamer comporte deux étapes alternées : le Rêve et l'Alignement. Tout d'abord, pour générer des images cohérentes sous plusieurs angles à partir des entrées, nous utilisons le nuage de points comme guide géométrique pour chaque génération d'image. Plus précisément, nous projetons une partie du nuage de points sur la vue souhaitée et fournissons cette projection comme guide pour le remplissage à l'aide du modèle génératif. Les images remplies sont ensuite élevées dans l'espace 3D avec des cartes de profondeur estimées, formant ainsi de nouveaux points. Ensuite, pour agréger ces nouveaux points dans la scène 3D, nous proposons un algorithme d'alignement qui intègre harmonieusement les portions des scènes 3D nouvellement générées. La scène 3D finalement obtenue sert de points initiaux pour l'optimisation des splats gaussiens. LucidDreamer produit des splats gaussiens hautement détaillés par rapport aux méthodes précédentes de génération de scènes 3D, sans aucune contrainte sur le domaine de la scène cible.
English
With the widespread usage of VR devices and contents, demands for 3D scene
generation techniques become more popular. Existing 3D scene generation models,
however, limit the target scene to specific domain, primarily due to their
training strategies using 3D scan dataset that is far from the real-world. To
address such limitation, we propose LucidDreamer, a domain-free scene
generation pipeline by fully leveraging the power of existing large-scale
diffusion-based generative model. Our LucidDreamer has two alternate steps:
Dreaming and Alignment. First, to generate multi-view consistent images from
inputs, we set the point cloud as a geometrical guideline for each image
generation. Specifically, we project a portion of point cloud to the desired
view and provide the projection as a guidance for inpainting using the
generative model. The inpainted images are lifted to 3D space with estimated
depth maps, composing a new points. Second, to aggregate the new points into
the 3D scene, we propose an aligning algorithm which harmoniously integrates
the portions of newly generated 3D scenes. The finally obtained 3D scene serves
as initial points for optimizing Gaussian splats. LucidDreamer produces
Gaussian splats that are highly-detailed compared to the previous 3D scene
generation methods, with no constraint on domain of the target scene.