Extend3D: Generazione 3D su Scala Urbana

Abstract

In questo articolo proponiamo Extend3D, una pipeline senza fase di addestramento per la generazione di scene 3D a partire da una singola immagine, basata su un modello generativo 3D object-centric. Per superare le limitazioni degli spazi latenti di dimensione fissa nei modelli object-centric nella rappresentazione di scene ampie, estendiamo lo spazio latente lungo le direzioni x e y. Successivamente, suddividendo lo spazio latente esteso in patch sovrapposte, applichiamo il modello generativo 3D object-centric a ciascuna patch e le accoppiamo ad ogni passo temporale. Poiché la generazione 3D per patch con condizionamento tramite immagine richiede un allineamento spaziale rigoroso tra le patch dell'immagine e quelle latenti, inizializziamo la scena utilizzando una precedente di nuvola di punti da un estimatore di profondità monoculare e raffi niamo iterativamente le regioni occluse tramite SDEdit. Abbiamo scoperto che trattare l'incompletezza della struttura 3D come rumore durante il raffinamento 3D permette il completamento 3D attraverso un concetto che definiamo under-noising. Inoltre, per affrontare la sub-ottimalità dei modelli object-centric nella generazione di sotto-scene, ottimizziamo lo spazio latente esteso durante il denoising, assicurando che le traiettorie di denoising rimangano coerenti con la dinamica della sotto-scena. A tal fine, introduciamo obiettivi di ottimizzazione 3D-aware per migliorare la struttura geometrica e la fedeltà della texture. Dimostriamo che il nostro metodo produce risultati migliori rispetto ai metodi precedenti, come evidenziato dal preference umano e da esperimenti quantitativi.

English

In this paper, we propose Extend3D, a training-free pipeline for 3D scene generation from a single image, built upon an object-centric 3D generative model. To overcome the limitations of fixed-size latent spaces in object-centric models for representing wide scenes, we extend the latent space in the x and y directions. Then, by dividing the extended latent space into overlapping patches, we apply the object-centric 3D generative model to each patch and couple them at each time step. Since patch-wise 3D generation with image conditioning requires strict spatial alignment between image and latent patches, we initialize the scene using a point cloud prior from a monocular depth estimator and iteratively refine occluded regions through SDEdit. We discovered that treating the incompleteness of 3D structure as noise during 3D refinement enables 3D completion via a concept, which we term under-noising. Furthermore, to address the sub-optimality of object-centric models for sub-scene generation, we optimize the extended latent during denoising, ensuring that the denoising trajectories remain consistent with the sub-scene dynamics. To this end, we introduce 3D-aware optimization objectives for improved geometric structure and texture fidelity. We demonstrate that our method yields better results than prior methods, as evidenced by human preference and quantitative experiments.

Extend3D: Generazione 3D su Scala Urbana

Extend3D: Town-Scale 3D Generation

Abstract

Support