WorldGrow: Generazione di Mondi 3D Infiniti
WorldGrow: Generating Infinite 3D World
October 24, 2025
Autori: Sikuang Li, Chen Yang, Jiemin Fang, Taoran Yi, Jia Lu, Jiazhong Cen, Lingxi Xie, Wei Shen, Qi Tian
cs.AI
Abstract
Affrontiamo la sfida della generazione di mondi 3D infinitamente estendibili – ambienti ampi e continui con geometria coerente e aspetto realistico. I metodi esistenti presentano sfide chiave: gli approcci basati sul "sollevamento" 2D soffrono di incoerenze geometriche e di aspetto tra le diverse viste, le rappresentazioni implicite 3D sono difficili da scalare, e gli attuali modelli fondazionali 3D sono per lo più incentrati su oggetti singoli, limitandone l'applicabilità alla generazione a livello di scena. La nostra intuizione chiave è sfruttare i forti priori di generazione di modelli 3D pre-addestrati per la generazione strutturata di blocchi di scena. A tal fine, proponiamo WorldGrow, un framework gerarchico per la sintesi di scene 3D illimitate. Il nostro metodo presenta tre componenti fondamentali: (1) una pipeline di curatela dei dati che estrae blocchi di scena di alta qualità per l'addestramento, rendendo le rappresentazioni latenti strutturate 3D adatte alla generazione di scene; (2) un meccanismo di inpaint di blocchi 3D che abilita l'estensione della scena consapevole del contesto; e (3) una strategia di generazione coarse-to-fine che garantisce sia la plausibilità del layout globale che la fedeltà geometrica/testurale locale. Valutato sul dataset su larga scala 3D-FRONT, WorldGrow raggiunge prestazioni allo stato dell'arte nella ricostruzione geometrica, supportando in modo unico la generazione infinita di scene con output fotorealistici e strutturalmente coerenti. Questi risultati ne evidenziano la capacità di costruire ambienti virtuali su larga scala e il potenziale per la costruzione di futuri modelli mondiali.
English
We tackle the challenge of generating the infinitely extendable 3D world --
large, continuous environments with coherent geometry and realistic appearance.
Existing methods face key challenges: 2D-lifting approaches suffer from
geometric and appearance inconsistencies across views, 3D implicit
representations are hard to scale up, and current 3D foundation models are
mostly object-centric, limiting their applicability to scene-level generation.
Our key insight is leveraging strong generation priors from pre-trained 3D
models for structured scene block generation. To this end, we propose
WorldGrow, a hierarchical framework for unbounded 3D scene synthesis. Our
method features three core components: (1) a data curation pipeline that
extracts high-quality scene blocks for training, making the 3D structured
latent representations suitable for scene generation; (2) a 3D block inpainting
mechanism that enables context-aware scene extension; and (3) a coarse-to-fine
generation strategy that ensures both global layout plausibility and local
geometric/textural fidelity. Evaluated on the large-scale 3D-FRONT dataset,
WorldGrow achieves SOTA performance in geometry reconstruction, while uniquely
supporting infinite scene generation with photorealistic and structurally
consistent outputs. These results highlight its capability for constructing
large-scale virtual environments and potential for building future world
models.