ChatPaper.aiChatPaper

Extend3D: 3D-Generierung im Stadtmaßstab

Extend3D: Town-Scale 3D Generation

March 31, 2026
Autoren: Seungwoo Yoon, Jinmo Kim, Jaesik Park
cs.AI

Zusammenfassung

In diesem Beitrag stellen wir Extend3D vor, eine trainierungsfreie Pipeline zur Erzeugung von 3D-Szenen aus einem einzelnen Bild, die auf einem objektzentrierten 3D-Generativmodell aufbaut. Um die Einschränkungen von latenten Räumen fester Größe in objektzentrierten Modellen bei der Darstellung weiter Szenen zu überwinden, erweitern wir den latenten Raum in x- und y-Richtung. Anschließend teilen wir den erweiterten latenten Raum in überlappende Patches auf, wenden das objektzentrierte 3D-Generativmodell auf jeden Patch an und koppeln diese in jedem Zeitschritt. Da die patchweise 3D-Generierung mit Bildkonditionierung eine strikte räumliche Ausrichtung zwischen Bild- und latenten Patches erfordert, initialisieren wir die Szene mit einer Punktwolken-Priorität aus einem monokularen Tiefenschätzer und verfeinern verdeckte Regionen iterativ durch SDEdit. Wir fanden heraus, dass die Behandlung der Unvollständigkeit der 3D-Struktur als Rauschen während der 3D-Verfeinerung eine 3D-Vervollständigung über ein Konzept ermöglicht, das wir als *Under-Noising* bezeichnen. Darüber hinaus optimieren wir, um der Suboptimalität objektzentrierter Modelle für die Teilszenengenerierung entgegenzuwirken, den erweiterten latenten Raum während des Entrauschens. Dies stellt sicher, dass die Entrauschungspfade konsistent mit der Teilszenendynamik bleiben. Zu diesem Zweck führen wir 3D-bewusste Optimierungsziele für eine verbesserte geometrische Struktur und Texturtreue ein. Wir zeigen, dass unsere Methode bessere Ergebnisse liefert als bisherige Ansätze, was durch menschliche Präferenz und quantitative Experimente belegt wird.
English
In this paper, we propose Extend3D, a training-free pipeline for 3D scene generation from a single image, built upon an object-centric 3D generative model. To overcome the limitations of fixed-size latent spaces in object-centric models for representing wide scenes, we extend the latent space in the x and y directions. Then, by dividing the extended latent space into overlapping patches, we apply the object-centric 3D generative model to each patch and couple them at each time step. Since patch-wise 3D generation with image conditioning requires strict spatial alignment between image and latent patches, we initialize the scene using a point cloud prior from a monocular depth estimator and iteratively refine occluded regions through SDEdit. We discovered that treating the incompleteness of 3D structure as noise during 3D refinement enables 3D completion via a concept, which we term under-noising. Furthermore, to address the sub-optimality of object-centric models for sub-scene generation, we optimize the extended latent during denoising, ensuring that the denoising trajectories remain consistent with the sub-scene dynamics. To this end, we introduce 3D-aware optimization objectives for improved geometric structure and texture fidelity. We demonstrate that our method yields better results than prior methods, as evidenced by human preference and quantitative experiments.
PDF141April 2, 2026