Construcción de un Pueblo 3D a partir de una Única Imagen
Constructing a 3D Town from a Single Image
May 21, 2025
Autores: Kaizhi Zheng, Ruijian Zhang, Jing Gu, Jie Yang, Xin Eric Wang
cs.AI
Resumen
La adquisición de escenas 3D detalladas generalmente requiere equipos costosos, datos de múltiples vistas o un modelado laborioso. Por lo tanto, una alternativa ligera, que genera escenas 3D complejas a partir de una única imagen desde una vista superior, desempeña un papel esencial en aplicaciones del mundo real. Si bien los modelos generativos 3D recientes han logrado resultados notables a nivel de objetos, su extensión a la generación de escenas completas a menudo resulta en geometría inconsistente, alucinaciones de diseño y mallas de baja calidad. En este trabajo, presentamos 3DTown, un marco sin entrenamiento diseñado para sintetizar escenas 3D realistas y coherentes a partir de una única vista superior. Nuestro método se basa en dos principios: generación basada en regiones para mejorar la alineación y resolución de imagen a 3D, y inpainting 3D espacialmente consciente para garantizar la coherencia global de la escena y la generación de geometría de alta calidad. Específicamente, descomponemos la imagen de entrada en regiones superpuestas y generamos cada una utilizando un generador de objetos 3D preentrenado, seguido de un proceso de inpainting con flujo rectificado enmascarado que rellena la geometría faltante mientras mantiene la continuidad estructural. Este diseño modular nos permite superar los cuellos de botella de resolución y preservar la estructura espacial sin requerir supervisión 3D o ajustes finos. Experimentos extensos en diversas escenas muestran que 3DTown supera a los métodos de referencia más avanzados, incluyendo Trellis, Hunyuan3D-2 y TripoSG, en términos de calidad de geometría, coherencia espacial y fidelidad de texturas. Nuestros resultados demuestran que la generación de ciudades 3D de alta calidad es alcanzable a partir de una única imagen utilizando un enfoque basado en principios y sin entrenamiento.
English
Acquiring detailed 3D scenes typically demands costly equipment, multi-view
data, or labor-intensive modeling. Therefore, a lightweight alternative,
generating complex 3D scenes from a single top-down image, plays an essential
role in real-world applications. While recent 3D generative models have
achieved remarkable results at the object level, their extension to full-scene
generation often leads to inconsistent geometry, layout hallucinations, and
low-quality meshes. In this work, we introduce 3DTown, a training-free
framework designed to synthesize realistic and coherent 3D scenes from a single
top-down view. Our method is grounded in two principles: region-based
generation to improve image-to-3D alignment and resolution, and spatial-aware
3D inpainting to ensure global scene coherence and high-quality geometry
generation. Specifically, we decompose the input image into overlapping regions
and generate each using a pretrained 3D object generator, followed by a masked
rectified flow inpainting process that fills in missing geometry while
maintaining structural continuity. This modular design allows us to overcome
resolution bottlenecks and preserve spatial structure without requiring 3D
supervision or fine-tuning. Extensive experiments across diverse scenes show
that 3DTown outperforms state-of-the-art baselines, including Trellis,
Hunyuan3D-2, and TripoSG, in terms of geometry quality, spatial coherence, and
texture fidelity. Our results demonstrate that high-quality 3D town generation
is achievable from a single image using a principled, training-free approach.Summary
AI-Generated Summary