Extend3D : Génération 3D à l'échelle d'une ville

Résumé

Dans cet article, nous proposons Extend3D, une méthode non supervisée pour la génération de scènes 3D à partir d'une seule image, reposant sur un modèle génératif 3D centré sur les objets. Pour surmonter les limitations des espaces latents de taille fixe dans les modèles centrés sur les objets pour représenter des scènes étendues, nous étendons l'espace latent dans les directions x et y. Ensuite, en divisant l'espace latent étendu en patches se chevauchant, nous appliquons le modèle génératif 3D centré sur les objets à chaque patch et les couplons à chaque pas de temps. Étant donné que la génération 3D par patchs avec conditionnement par image nécessite un alignement spatial strict entre les patches d'image et les patches latents, nous initialisons la scène en utilisant un nuage de points issu d'un estimateur de profondeur monoculaire et affinons itérativement les régions occluses via SDEdit. Nous avons découvert que traiter l'incomplétude de la structure 3D comme un bruit lors du raffinement 3D permet une complétion 3D via un concept que nous nommons *under-noising* (sous-bruitage). De plus, pour remédier à la sous-optimalité des modèles centrés sur les objets pour la génération de sous-scènes, nous optimisons l'espace latent étendu pendant le débruitage, garantissant que les trajectoires de débruitage restent cohérentes avec la dynamique de la sous-scène. À cette fin, nous introduisons des objectifs d'optimisation conscients de la 3D pour améliorer la structure géométrique et la fidélité texturale. Nous démontrons que notre méthode produit de meilleurs résultats que les méthodes antérieures, comme en témoignent les préférences humaines et les expériences quantitatives.

English

In this paper, we propose Extend3D, a training-free pipeline for 3D scene generation from a single image, built upon an object-centric 3D generative model. To overcome the limitations of fixed-size latent spaces in object-centric models for representing wide scenes, we extend the latent space in the x and y directions. Then, by dividing the extended latent space into overlapping patches, we apply the object-centric 3D generative model to each patch and couple them at each time step. Since patch-wise 3D generation with image conditioning requires strict spatial alignment between image and latent patches, we initialize the scene using a point cloud prior from a monocular depth estimator and iteratively refine occluded regions through SDEdit. We discovered that treating the incompleteness of 3D structure as noise during 3D refinement enables 3D completion via a concept, which we term under-noising. Furthermore, to address the sub-optimality of object-centric models for sub-scene generation, we optimize the extended latent during denoising, ensuring that the denoising trajectories remain consistent with the sub-scene dynamics. To this end, we introduce 3D-aware optimization objectives for improved geometric structure and texture fidelity. We demonstrate that our method yields better results than prior methods, as evidenced by human preference and quantitative experiments.

Extend3D : Génération 3D à l'échelle d'une ville

Extend3D: Town-Scale 3D Generation

Résumé

Support