WorldGrow: Generación de Mundos 3D Infinitos
WorldGrow: Generating Infinite 3D World
October 24, 2025
Autores: Sikuang Li, Chen Yang, Jiemin Fang, Taoran Yi, Jia Lu, Jiazhong Cen, Lingxi Xie, Wei Shen, Qi Tian
cs.AI
Resumen
Abordamos el desafío de generar mundos 3D infinitamente extensibles —entornos grandes y continuos con geometría coherente y apariencia realista. Los métodos existentes enfrentan problemas clave: los enfoques basados en elevación 2D adolecen de inconsistencias geométricas y de apariencia entre vistas, las representaciones implícitas 3D son difíciles de escalar, y los modelos fundacionales 3D actuales están mayormente centrados en objetos, lo que limita su aplicabilidad a la generación a nivel de escena. Nuestra idea clave es aprovechar los fuertes *priors* de generación de modelos 3D preentrenados para la generación estructurada de bloques de escena. Con este fin, proponemos WorldGrow, un marco jerárquico para la síntesis ilimitada de escenas 3D. Nuestro método cuenta con tres componentes centrales: (1) un *pipeline* de curación de datos que extrae bloques de escena de alta calidad para el entrenamiento, haciendo que las representaciones latentes estructuradas 3D sean adecuadas para la generación de escenas; (2) un mecanismo de inpaintado de bloques 3D que permite la extensión de la escena con conciencia del contexto; y (3) una estrategia de generación de grueso a fino que garantiza tanto la plausibilidad del diseño global como la fidelidad geométrica y textural local. Evaluado en el conjunto de datos a gran escala 3D-FRONT, WorldGrow logra un rendimiento de vanguardia (SOTA) en reconstrucción geométrica, a la vez que admite de forma única la generación infinita de escenas con resultados fotorrealistas y estructuralmente coherentes. Estos resultados destacan su capacidad para construir entornos virtuales a gran escala y su potencial para construir futuros modelos de mundo.
English
We tackle the challenge of generating the infinitely extendable 3D world --
large, continuous environments with coherent geometry and realistic appearance.
Existing methods face key challenges: 2D-lifting approaches suffer from
geometric and appearance inconsistencies across views, 3D implicit
representations are hard to scale up, and current 3D foundation models are
mostly object-centric, limiting their applicability to scene-level generation.
Our key insight is leveraging strong generation priors from pre-trained 3D
models for structured scene block generation. To this end, we propose
WorldGrow, a hierarchical framework for unbounded 3D scene synthesis. Our
method features three core components: (1) a data curation pipeline that
extracts high-quality scene blocks for training, making the 3D structured
latent representations suitable for scene generation; (2) a 3D block inpainting
mechanism that enables context-aware scene extension; and (3) a coarse-to-fine
generation strategy that ensures both global layout plausibility and local
geometric/textural fidelity. Evaluated on the large-scale 3D-FRONT dataset,
WorldGrow achieves SOTA performance in geometry reconstruction, while uniquely
supporting infinite scene generation with photorealistic and structurally
consistent outputs. These results highlight its capability for constructing
large-scale virtual environments and potential for building future world
models.