Construcción de un Pueblo 3D a partir de una Única Imagen

Resumen

La adquisición de escenas 3D detalladas generalmente requiere equipos costosos, datos de múltiples vistas o un modelado laborioso. Por lo tanto, una alternativa ligera, que genera escenas 3D complejas a partir de una única imagen desde una vista superior, desempeña un papel esencial en aplicaciones del mundo real. Si bien los modelos generativos 3D recientes han logrado resultados notables a nivel de objetos, su extensión a la generación de escenas completas a menudo resulta en geometría inconsistente, alucinaciones de diseño y mallas de baja calidad. En este trabajo, presentamos 3DTown, un marco sin entrenamiento diseñado para sintetizar escenas 3D realistas y coherentes a partir de una única vista superior. Nuestro método se basa en dos principios: generación basada en regiones para mejorar la alineación y resolución de imagen a 3D, y inpainting 3D espacialmente consciente para garantizar la coherencia global de la escena y la generación de geometría de alta calidad. Específicamente, descomponemos la imagen de entrada en regiones superpuestas y generamos cada una utilizando un generador de objetos 3D preentrenado, seguido de un proceso de inpainting con flujo rectificado enmascarado que rellena la geometría faltante mientras mantiene la continuidad estructural. Este diseño modular nos permite superar los cuellos de botella de resolución y preservar la estructura espacial sin requerir supervisión 3D o ajustes finos. Experimentos extensos en diversas escenas muestran que 3DTown supera a los métodos de referencia más avanzados, incluyendo Trellis, Hunyuan3D-2 y TripoSG, en términos de calidad de geometría, coherencia espacial y fidelidad de texturas. Nuestros resultados demuestran que la generación de ciudades 3D de alta calidad es alcanzable a partir de una única imagen utilizando un enfoque basado en principios y sin entrenamiento.

English

Acquiring detailed 3D scenes typically demands costly equipment, multi-view data, or labor-intensive modeling. Therefore, a lightweight alternative, generating complex 3D scenes from a single top-down image, plays an essential role in real-world applications. While recent 3D generative models have achieved remarkable results at the object level, their extension to full-scene generation often leads to inconsistent geometry, layout hallucinations, and low-quality meshes. In this work, we introduce 3DTown, a training-free framework designed to synthesize realistic and coherent 3D scenes from a single top-down view. Our method is grounded in two principles: region-based generation to improve image-to-3D alignment and resolution, and spatial-aware 3D inpainting to ensure global scene coherence and high-quality geometry generation. Specifically, we decompose the input image into overlapping regions and generate each using a pretrained 3D object generator, followed by a masked rectified flow inpainting process that fills in missing geometry while maintaining structural continuity. This modular design allows us to overcome resolution bottlenecks and preserve spatial structure without requiring 3D supervision or fine-tuning. Extensive experiments across diverse scenes show that 3DTown outperforms state-of-the-art baselines, including Trellis, Hunyuan3D-2, and TripoSG, in terms of geometry quality, spatial coherence, and texture fidelity. Our results demonstrate that high-quality 3D town generation is achievable from a single image using a principled, training-free approach.

Construcción de un Pueblo 3D a partir de una Única Imagen

Constructing a 3D Town from a Single Image

Resumen

Support