Extend3D: 3D-generatie op stadsniveau
Extend3D: Town-Scale 3D Generation
March 31, 2026
Auteurs: Seungwoo Yoon, Jinmo Kim, Jaesik Park
cs.AI
Samenvatting
In dit artikel presenteren we Extend3D, een trainingsvrije pijplijn voor 3D-scènegeneratie vanuit een enkele afbeelding, gebaseerd op een objectgecentreerd 3D-generatief model. Om de beperkingen van latentruimtes met vaste grootte in objectgecentreerde modellen voor het representeren van brede scènes te overwinnen, breiden we de latentruimte uit in de x- en y-richting. Vervolgens delen we de uitgebreide latentruimte in overlappende patches op en passen we het objectgecentreerde 3D-generatief model toe op elke patch, waarbij we deze op elk tijdstip koppelen. Omdat patchgewijze 3D-generatie met afbeeldingsconditionering een strikte ruimtelijke uitlijning vereist tussen afbeeldings- en latentepatches, initialiseren we de scène met een puntenwolk-prior van een monocular diepteschatter en verfijnen we occulte gebieden iteratief via SDEdit. Wij ontdekten dat het behandelen van de onvolledigheid van de 3D-structuur als ruis tijdens 3D-verfijning 3D-voltooiing mogelijk maakt via een concept dat wij *under-noising* noemen. Verder, om de suboptimaliteit van objectgecentreerde modellen voor subscènegeneratie aan te pakken, optimaliseren we de uitgebreide latentruimte tijdens de denoisering, om ervoor te zorgen dat de denoiseringstrajecten consistent blijven met de subscènedynamiek. Hiertoe introduceren we 3D-bewuste optimalisatiedoelen voor verbeterde geometrische structuur en textuurgetrouwheid. Wij tonen aan dat onze methode betere resultaten oplevert dan eerdere methoden, zoals blijkt uit menselijke voorkeur en kwantitatieve experimenten.
English
In this paper, we propose Extend3D, a training-free pipeline for 3D scene generation from a single image, built upon an object-centric 3D generative model. To overcome the limitations of fixed-size latent spaces in object-centric models for representing wide scenes, we extend the latent space in the x and y directions. Then, by dividing the extended latent space into overlapping patches, we apply the object-centric 3D generative model to each patch and couple them at each time step. Since patch-wise 3D generation with image conditioning requires strict spatial alignment between image and latent patches, we initialize the scene using a point cloud prior from a monocular depth estimator and iteratively refine occluded regions through SDEdit. We discovered that treating the incompleteness of 3D structure as noise during 3D refinement enables 3D completion via a concept, which we term under-noising. Furthermore, to address the sub-optimality of object-centric models for sub-scene generation, we optimize the extended latent during denoising, ensuring that the denoising trajectories remain consistent with the sub-scene dynamics. To this end, we introduce 3D-aware optimization objectives for improved geometric structure and texture fidelity. We demonstrate that our method yields better results than prior methods, as evidenced by human preference and quantitative experiments.