WorldGrow : Génération de mondes 3D infinis

papers.abstract

Nous abordons le défi de générer des mondes 3D extensibles à l'infini – des environnements vastes et continus possédant une géométrie cohérente et un réalisme d'apparence. Les méthodes existantes font face à des défis majeurs : les approches par relèvement 2D souffrent d'incohérences géométriques et d'apparence entre les vues, les représentations implicites 3D sont difficiles à mettre à l'échelle, et les modèles de fondation 3D actuels sont principalement centrés sur les objets, limitant leur applicabilité à la génération au niveau scénique. Notre idée maîtresse est d'exploiter les fortes priors de génération de modèles 3D pré-entraînés pour produire des blocs scéniques structurés. À cette fin, nous proposons WorldGrow, un cadre hiérarchique pour la synthèse illimitée de scènes 3D. Notre méthode comporte trois composants clés : (1) un pipeline de curation de données qui extrait des blocs scéniques de haute qualité pour l'entraînement, rendant les représentations latentes structurées 3D adaptées à la génération de scènes ; (2) un mécanisme d'inpainting 3D par blocs qui permet une extension scénique sensible au contexte ; et (3) une stratégie de génération multi-échelle qui assure à la fois la plausibilité de la disposition globale et la fidélité géométrique/texturale locale. Évalué sur le jeu de données 3D-FRONT à grande échelle, WorldGrow obtient des performances de pointe en reconstruction géométrique, tout en supportant de manière unique la génération infinie de scènes avec des résultats photoréalistes et structurellement cohérents. Ces résultats soulignent sa capacité à construire des environnements virtuels à grande échelle et son potentiel pour élaborer les modèles de monde futurs.

English

We tackle the challenge of generating the infinitely extendable 3D world -- large, continuous environments with coherent geometry and realistic appearance. Existing methods face key challenges: 2D-lifting approaches suffer from geometric and appearance inconsistencies across views, 3D implicit representations are hard to scale up, and current 3D foundation models are mostly object-centric, limiting their applicability to scene-level generation. Our key insight is leveraging strong generation priors from pre-trained 3D models for structured scene block generation. To this end, we propose WorldGrow, a hierarchical framework for unbounded 3D scene synthesis. Our method features three core components: (1) a data curation pipeline that extracts high-quality scene blocks for training, making the 3D structured latent representations suitable for scene generation; (2) a 3D block inpainting mechanism that enables context-aware scene extension; and (3) a coarse-to-fine generation strategy that ensures both global layout plausibility and local geometric/textural fidelity. Evaluated on the large-scale 3D-FRONT dataset, WorldGrow achieves SOTA performance in geometry reconstruction, while uniquely supporting infinite scene generation with photorealistic and structurally consistent outputs. These results highlight its capability for constructing large-scale virtual environments and potential for building future world models.

WorldGrow : Génération de mondes 3D infinis

WorldGrow: Generating Infinite 3D World

papers.abstract

Support