WorldGrow: Generación de Mundos 3D Infinitos

Resumen

Abordamos el desafío de generar mundos 3D infinitamente extensibles —entornos grandes y continuos con geometría coherente y apariencia realista. Los métodos existentes enfrentan problemas clave: los enfoques basados en elevación 2D adolecen de inconsistencias geométricas y de apariencia entre vistas, las representaciones implícitas 3D son difíciles de escalar, y los modelos fundacionales 3D actuales están mayormente centrados en objetos, lo que limita su aplicabilidad a la generación a nivel de escena. Nuestra idea clave es aprovechar los fuertes *priors* de generación de modelos 3D preentrenados para la generación estructurada de bloques de escena. Con este fin, proponemos WorldGrow, un marco jerárquico para la síntesis ilimitada de escenas 3D. Nuestro método cuenta con tres componentes centrales: (1) un *pipeline* de curación de datos que extrae bloques de escena de alta calidad para el entrenamiento, haciendo que las representaciones latentes estructuradas 3D sean adecuadas para la generación de escenas; (2) un mecanismo de inpaintado de bloques 3D que permite la extensión de la escena con conciencia del contexto; y (3) una estrategia de generación de grueso a fino que garantiza tanto la plausibilidad del diseño global como la fidelidad geométrica y textural local. Evaluado en el conjunto de datos a gran escala 3D-FRONT, WorldGrow logra un rendimiento de vanguardia (SOTA) en reconstrucción geométrica, a la vez que admite de forma única la generación infinita de escenas con resultados fotorrealistas y estructuralmente coherentes. Estos resultados destacan su capacidad para construir entornos virtuales a gran escala y su potencial para construir futuros modelos de mundo.

English

We tackle the challenge of generating the infinitely extendable 3D world -- large, continuous environments with coherent geometry and realistic appearance. Existing methods face key challenges: 2D-lifting approaches suffer from geometric and appearance inconsistencies across views, 3D implicit representations are hard to scale up, and current 3D foundation models are mostly object-centric, limiting their applicability to scene-level generation. Our key insight is leveraging strong generation priors from pre-trained 3D models for structured scene block generation. To this end, we propose WorldGrow, a hierarchical framework for unbounded 3D scene synthesis. Our method features three core components: (1) a data curation pipeline that extracts high-quality scene blocks for training, making the 3D structured latent representations suitable for scene generation; (2) a 3D block inpainting mechanism that enables context-aware scene extension; and (3) a coarse-to-fine generation strategy that ensures both global layout plausibility and local geometric/textural fidelity. Evaluated on the large-scale 3D-FRONT dataset, WorldGrow achieves SOTA performance in geometry reconstruction, while uniquely supporting infinite scene generation with photorealistic and structurally consistent outputs. These results highlight its capability for constructing large-scale virtual environments and potential for building future world models.

WorldGrow: Generación de Mundos 3D Infinitos

WorldGrow: Generating Infinite 3D World

Resumen

Support