WorldGrow: Gerando Mundos 3D Infinitos
WorldGrow: Generating Infinite 3D World
October 24, 2025
Autores: Sikuang Li, Chen Yang, Jiemin Fang, Taoran Yi, Jia Lu, Jiazhong Cen, Lingxi Xie, Wei Shen, Qi Tian
cs.AI
Resumo
Nós enfrentamos o desafio de gerar mundos 3D infinitamente expansíveis – ambientes grandes e contínuos com geometria coerente e aparência realista. Os métodos existentes enfrentam desafios fundamentais: as abordagens baseadas em elevação 2D sofrem com inconsistências geométricas e de aparência entre diferentes vistas, as representações implícitas 3D são difíceis de escalar, e os modelos de fundação 3D atuais são majoritariamente centrados em objetos, limitando sua aplicabilidade na geração em nível de cena. Nossa principal percepção é alavancar fortes prioridades de geração de modelos 3D pré-treinados para a geração estruturada de blocos de cena. Para este fim, propomos o WorldGrow, uma estrutura hierárquica para síntese ilimitada de cenas 3D. Nosso método apresenta três componentes principais: (1) um pipeline de curadoria de dados que extrai blocos de cena de alta qualidade para treinamento, tornando as representações latentes estruturadas 3D adequadas para geração de cenas; (2) um mecanismo de preenchimento (*inpainting*) de blocos 3D que permite a extensão da cena com consciência contextual; e (3) uma estratégia de geração do coarse-para-fine que garante tanto a plausibilidade do layout global quanto a fidelidade geométrica/textural local. Avaliado no conjunto de dados 3D-FRONT em larga escala, o WorldGrow alcança desempenho estado da arte em reconstrução geométrica, enquanto suporta de forma única a geração infinita de cenas com resultados foto realistas e estruturalmente consistentes. Estes resultados destacam sua capacidade para construir ambientes virtuais em larga escala e o potencial para a construção de futuros modelos de mundo.
English
We tackle the challenge of generating the infinitely extendable 3D world --
large, continuous environments with coherent geometry and realistic appearance.
Existing methods face key challenges: 2D-lifting approaches suffer from
geometric and appearance inconsistencies across views, 3D implicit
representations are hard to scale up, and current 3D foundation models are
mostly object-centric, limiting their applicability to scene-level generation.
Our key insight is leveraging strong generation priors from pre-trained 3D
models for structured scene block generation. To this end, we propose
WorldGrow, a hierarchical framework for unbounded 3D scene synthesis. Our
method features three core components: (1) a data curation pipeline that
extracts high-quality scene blocks for training, making the 3D structured
latent representations suitable for scene generation; (2) a 3D block inpainting
mechanism that enables context-aware scene extension; and (3) a coarse-to-fine
generation strategy that ensures both global layout plausibility and local
geometric/textural fidelity. Evaluated on the large-scale 3D-FRONT dataset,
WorldGrow achieves SOTA performance in geometry reconstruction, while uniquely
supporting infinite scene generation with photorealistic and structurally
consistent outputs. These results highlight its capability for constructing
large-scale virtual environments and potential for building future world
models.