Extend3D: 도시 규모 3D 생성
Extend3D: Town-Scale 3D Generation
March 31, 2026
저자: Seungwoo Yoon, Jinmo Kim, Jaesik Park
cs.AI
초록
본 논문에서는 객체 중심 3D 생성 모델을 기반으로 단일 이미지로부터 3D 장면을 생성하는 학습이 필요 없는 파이프라인인 Extend3D를 제안한다. 광활한 장면 표현을 위한 객체 중심 모델의 고정 크기 잠재 공간 한계를 극복하기 위해 잠재 공간을 x 및 y 방향으로 확장한다. 이후 확장된 잠재 공간을 중첩되는 패치로 분할하고, 각 패치에 객체 중심 3D 생성 모델을 적용하여 매 시간 단계마다 결합한다. 이미지 조건을 갖는 패치 단위 3D 생성은 이미지와 잠재 패치 간의 엄격한 공간 정렬을 요구하므로, 단안 깊이 추정기에서 얻은 포인트 클라우드 사전 정보로 장면을 초기화하고 SDEdit을 통해 가려진 영역을 반복적으로 정제한다. 우리는 3D 구조의 불완전함을 3D 정제 과정에서 노이즈로 취급함으로써 '언더-노이징(under-noising)'이라 명명한 개념을 통한 3D 완성이 가능함을 발견했다. 더 나아가 부분 장면 생성에 대한 객체 중심 모델의 차선책 성능 문제를 해결하기 위해 확장 잠재 공간을 디노이징 과정에서 최적화하여 디노이징 궤적이 부분 장면 역학과 일관되도록 보장한다. 이를 위해 기하학적 구조와 텍스처 충실도를 개선하는 3D 인식 최적화 목적 함수를 도입한다. 인간 선호도 평가 및 정량적 실험을 통해 우리 방법이 기존 방법보다 우수한 결과를 도출함을 입증한다.
English
In this paper, we propose Extend3D, a training-free pipeline for 3D scene generation from a single image, built upon an object-centric 3D generative model. To overcome the limitations of fixed-size latent spaces in object-centric models for representing wide scenes, we extend the latent space in the x and y directions. Then, by dividing the extended latent space into overlapping patches, we apply the object-centric 3D generative model to each patch and couple them at each time step. Since patch-wise 3D generation with image conditioning requires strict spatial alignment between image and latent patches, we initialize the scene using a point cloud prior from a monocular depth estimator and iteratively refine occluded regions through SDEdit. We discovered that treating the incompleteness of 3D structure as noise during 3D refinement enables 3D completion via a concept, which we term under-noising. Furthermore, to address the sub-optimality of object-centric models for sub-scene generation, we optimize the extended latent during denoising, ensuring that the denoising trajectories remain consistent with the sub-scene dynamics. To this end, we introduce 3D-aware optimization objectives for improved geometric structure and texture fidelity. We demonstrate that our method yields better results than prior methods, as evidenced by human preference and quantitative experiments.