WorldGrow : Génération de mondes 3D infinis
WorldGrow: Generating Infinite 3D World
October 24, 2025
papers.authors: Sikuang Li, Chen Yang, Jiemin Fang, Taoran Yi, Jia Lu, Jiazhong Cen, Lingxi Xie, Wei Shen, Qi Tian
cs.AI
papers.abstract
Nous abordons le défi de générer des mondes 3D extensibles à l'infini – des environnements vastes et continus possédant une géométrie cohérente et un réalisme d'apparence. Les méthodes existantes font face à des défis majeurs : les approches par relèvement 2D souffrent d'incohérences géométriques et d'apparence entre les vues, les représentations implicites 3D sont difficiles à mettre à l'échelle, et les modèles de fondation 3D actuels sont principalement centrés sur les objets, limitant leur applicabilité à la génération au niveau scénique. Notre idée maîtresse est d'exploiter les fortes priors de génération de modèles 3D pré-entraînés pour produire des blocs scéniques structurés. À cette fin, nous proposons WorldGrow, un cadre hiérarchique pour la synthèse illimitée de scènes 3D. Notre méthode comporte trois composants clés : (1) un pipeline de curation de données qui extrait des blocs scéniques de haute qualité pour l'entraînement, rendant les représentations latentes structurées 3D adaptées à la génération de scènes ; (2) un mécanisme d'inpainting 3D par blocs qui permet une extension scénique sensible au contexte ; et (3) une stratégie de génération multi-échelle qui assure à la fois la plausibilité de la disposition globale et la fidélité géométrique/texturale locale. Évalué sur le jeu de données 3D-FRONT à grande échelle, WorldGrow obtient des performances de pointe en reconstruction géométrique, tout en supportant de manière unique la génération infinie de scènes avec des résultats photoréalistes et structurellement cohérents. Ces résultats soulignent sa capacité à construire des environnements virtuels à grande échelle et son potentiel pour élaborer les modèles de monde futurs.
English
We tackle the challenge of generating the infinitely extendable 3D world --
large, continuous environments with coherent geometry and realistic appearance.
Existing methods face key challenges: 2D-lifting approaches suffer from
geometric and appearance inconsistencies across views, 3D implicit
representations are hard to scale up, and current 3D foundation models are
mostly object-centric, limiting their applicability to scene-level generation.
Our key insight is leveraging strong generation priors from pre-trained 3D
models for structured scene block generation. To this end, we propose
WorldGrow, a hierarchical framework for unbounded 3D scene synthesis. Our
method features three core components: (1) a data curation pipeline that
extracts high-quality scene blocks for training, making the 3D structured
latent representations suitable for scene generation; (2) a 3D block inpainting
mechanism that enables context-aware scene extension; and (3) a coarse-to-fine
generation strategy that ensures both global layout plausibility and local
geometric/textural fidelity. Evaluated on the large-scale 3D-FRONT dataset,
WorldGrow achieves SOTA performance in geometry reconstruction, while uniquely
supporting infinite scene generation with photorealistic and structurally
consistent outputs. These results highlight its capability for constructing
large-scale virtual environments and potential for building future world
models.