WorldGrow: 무한 3D 세계 생성
WorldGrow: Generating Infinite 3D World
October 24, 2025
저자: Sikuang Li, Chen Yang, Jiemin Fang, Taoran Yi, Jia Lu, Jiazhong Cen, Lingxi Xie, Wei Shen, Qi Tian
cs.AI
초록
우리는 무한히 확장 가능한 3D 세계 생성이라는 과제에 도전합니다. 이는 일관된 기하학적 구조와 사실적인 외관을 갖춘 대규모의 연속적인 환경을 의미합니다. 기존 방법들은 주요한 어려움에 직면해 있습니다: 2D-리프팅 방식은 시점 간 기하학적 및 외관 불일치 문제를 겪고, 3D 암묵적 표현은 확장하기 어려우며, 현재의 3D 파운데이션 모델은 대부분 객체 중심으로 설계되어 장면 수준 생성에의 적용이 제한됩니다.
우리의 핵심 통찰은 구조화된 장면 블록 생성을 위해 사전 학습된 3D 모델의 강력한 생성 사전 지식을 활용하는 것입니다. 이를 위해 우리는 비제한적 3D 장면 합성을 위한 계층적 프레임워크인 WorldGrow를 제안합니다. 우리의 방법은 세 가지 핵심 구성 요소를 특징으로 합니다: (1) 고품질 장면 블록을 추출하여 3D 구조화된 잠재 표현이 장면 생성에 적합하도록 하는 데이터 큐레이션 파이프라인, (2) 상황 인식 장면 확장을 가능하게 하는 3D 블록 인페인팅 메커니즘, (3) 전역적 배치 타당성과 지역적 기하학적/텍스처 정확도를 모두 보장하는 coarse-to-fine 생성 전략.
대규모 3D-FRONT 데이터셋에서 평가한 결과, WorldGrow는 기하학적 재구성에서 SOTA 성능을 달성하면서도, 사실적이고 구조적으로 일관된 결과물로 무한 장면 생성을 유일하게 지원합니다. 이러한 결과는 대규모 가상 환경 구축 능력과 향후 세계 모델 구축을 위한 잠재력을 입증합니다.
English
We tackle the challenge of generating the infinitely extendable 3D world --
large, continuous environments with coherent geometry and realistic appearance.
Existing methods face key challenges: 2D-lifting approaches suffer from
geometric and appearance inconsistencies across views, 3D implicit
representations are hard to scale up, and current 3D foundation models are
mostly object-centric, limiting their applicability to scene-level generation.
Our key insight is leveraging strong generation priors from pre-trained 3D
models for structured scene block generation. To this end, we propose
WorldGrow, a hierarchical framework for unbounded 3D scene synthesis. Our
method features three core components: (1) a data curation pipeline that
extracts high-quality scene blocks for training, making the 3D structured
latent representations suitable for scene generation; (2) a 3D block inpainting
mechanism that enables context-aware scene extension; and (3) a coarse-to-fine
generation strategy that ensures both global layout plausibility and local
geometric/textural fidelity. Evaluated on the large-scale 3D-FRONT dataset,
WorldGrow achieves SOTA performance in geometry reconstruction, while uniquely
supporting infinite scene generation with photorealistic and structurally
consistent outputs. These results highlight its capability for constructing
large-scale virtual environments and potential for building future world
models.