LucidDreamer : Génération sans domaine de scènes par projection de Gaussiennes 3D

Résumé

Avec l'utilisation généralisée des dispositifs et contenus de réalité virtuelle (VR), les demandes pour les techniques de génération de scènes 3D deviennent de plus en plus populaires. Cependant, les modèles existants de génération de scènes 3D limitent la scène cible à un domaine spécifique, principalement en raison de leurs stratégies d'entraînement utilisant des jeux de données de scans 3D qui sont éloignés de la réalité. Pour répondre à cette limitation, nous proposons LucidDreamer, un pipeline de génération de scènes sans domaine, en exploitant pleinement la puissance des modèles génératifs à grande échelle basés sur la diffusion. Notre LucidDreamer comporte deux étapes alternées : le Rêve et l'Alignement. Tout d'abord, pour générer des images cohérentes sous plusieurs angles à partir des entrées, nous utilisons le nuage de points comme guide géométrique pour chaque génération d'image. Plus précisément, nous projetons une partie du nuage de points sur la vue souhaitée et fournissons cette projection comme guide pour le remplissage à l'aide du modèle génératif. Les images remplies sont ensuite élevées dans l'espace 3D avec des cartes de profondeur estimées, formant ainsi de nouveaux points. Ensuite, pour agréger ces nouveaux points dans la scène 3D, nous proposons un algorithme d'alignement qui intègre harmonieusement les portions des scènes 3D nouvellement générées. La scène 3D finalement obtenue sert de points initiaux pour l'optimisation des splats gaussiens. LucidDreamer produit des splats gaussiens hautement détaillés par rapport aux méthodes précédentes de génération de scènes 3D, sans aucune contrainte sur le domaine de la scène cible.

English

With the widespread usage of VR devices and contents, demands for 3D scene generation techniques become more popular. Existing 3D scene generation models, however, limit the target scene to specific domain, primarily due to their training strategies using 3D scan dataset that is far from the real-world. To address such limitation, we propose LucidDreamer, a domain-free scene generation pipeline by fully leveraging the power of existing large-scale diffusion-based generative model. Our LucidDreamer has two alternate steps: Dreaming and Alignment. First, to generate multi-view consistent images from inputs, we set the point cloud as a geometrical guideline for each image generation. Specifically, we project a portion of point cloud to the desired view and provide the projection as a guidance for inpainting using the generative model. The inpainted images are lifted to 3D space with estimated depth maps, composing a new points. Second, to aggregate the new points into the 3D scene, we propose an aligning algorithm which harmoniously integrates the portions of newly generated 3D scenes. The finally obtained 3D scene serves as initial points for optimizing Gaussian splats. LucidDreamer produces Gaussian splats that are highly-detailed compared to the previous 3D scene generation methods, with no constraint on domain of the target scene.

LucidDreamer : Génération sans domaine de scènes par projection de Gaussiennes 3D

LucidDreamer: Domain-free Generation of 3D Gaussian Splatting Scenes

Résumé

Support