Extend3D: Generación 3D a Escala Urbana

Resumen

En este artículo, presentamos Extend3D, un pipeline que no requiere entrenamiento para la generación de escenas 3D a partir de una única imagen, basado en un modelo generativo 3D centrado en objetos. Para superar las limitaciones de los espacios latentes de tamaño fijo en los modelos centrados en objetos a la hora de representar escenas amplias, extendemos el espacio latente en las direcciones x e y. Luego, dividiendo el espacio latente extendido en parches superpuestos, aplicamos el modelo generativo 3D centrado en objetos a cada parche y los acoplamos en cada paso de tiempo. Dado que la generación 3D por parches con condicionamiento por imagen requiere una alineación espacial estricta entre los parches de la imagen y los parches latentes, inicializamos la escena utilizando una nube de puntos previa de un estimador de profundidad monocular y refinamos iterativamente las regiones ocluidas mediante SDEdit. Descubrimos que tratar la incompletitud de la estructura 3D como ruido durante el refinamiento 3D permite la compleción 3D a través de un concepto que denominamos *sub-ruido*. Además, para abordar la sub-optimalidad de los modelos centrados en objetos para la generación de sub-escenas, optimizamos el espacio latente extendido durante la eliminación de ruido, asegurando que las trayectorias de este proceso permanezcan consistentes con la dinámica de la sub-escena. Para ello, introducimos objetivos de optimización conscientes de la estructura 3D para mejorar la geometría y la fidelidad textural. Demostramos que nuestro método produce mejores resultados que los métodos anteriores, como lo evidencian la preferencia humana y los experimentos cuantitativos.

English

In this paper, we propose Extend3D, a training-free pipeline for 3D scene generation from a single image, built upon an object-centric 3D generative model. To overcome the limitations of fixed-size latent spaces in object-centric models for representing wide scenes, we extend the latent space in the x and y directions. Then, by dividing the extended latent space into overlapping patches, we apply the object-centric 3D generative model to each patch and couple them at each time step. Since patch-wise 3D generation with image conditioning requires strict spatial alignment between image and latent patches, we initialize the scene using a point cloud prior from a monocular depth estimator and iteratively refine occluded regions through SDEdit. We discovered that treating the incompleteness of 3D structure as noise during 3D refinement enables 3D completion via a concept, which we term under-noising. Furthermore, to address the sub-optimality of object-centric models for sub-scene generation, we optimize the extended latent during denoising, ensuring that the denoising trajectories remain consistent with the sub-scene dynamics. To this end, we introduce 3D-aware optimization objectives for improved geometric structure and texture fidelity. We demonstrate that our method yields better results than prior methods, as evidenced by human preference and quantitative experiments.

Extend3D: Generación 3D a Escala Urbana

Extend3D: Town-Scale 3D Generation

Resumen

Support