Yo'City: Generación de Escenas Urbanas 3D Realistas Personalizadas e Ilimitadas mediante Expansión Autocrítica
Yo'City: Personalized and Boundless 3D Realistic City Scene Generation via Self-Critic Expansion
November 24, 2025
Autores: Keyang Lu, Sifan Zhou, Hongbin Xu, Gang Xu, Zhifei Yang, Yikai Wang, Zhen Xiao, Jieyi Long, Ming Li
cs.AI
Resumen
La generación realista de ciudades en 3D es fundamental para una amplia gama de aplicaciones, incluyendo la realidad virtual y los gemelos digitales. Sin embargo, la mayoría de los métodos existentes se basan en entrenar un único modelo de difusión, lo que limita su capacidad para generar escenas urbanas a escala personalizadas e ilimitadas. En este artículo, presentamos Yo'City, un novedoso marco agéntico que permite la generación de ciudades 3D personalizable por el usuario e infinitamente expandible, aprovechando las capacidades de razonamiento y composición de modelos grandes disponibles comercialmente. Específicamente, Yo'City primero conceptualiza la ciudad mediante una estrategia de planificación descendente que define una estructura jerárquica "Ciudad-Distrito-Cuadrícula". El Planificador Global determina el diseño general y los distritos funcionales potenciales, mientras que el Diseñador Local refina aún más cada distrito con descripciones detalladas a nivel de cuadrícula. Posteriormente, la generación 3D a nivel de cuadrícula se logra mediante un bucle de síntesis de imágenes isométricas "producir-refinar-evaluar", seguido de la generación de imagen a 3D. Para simular una evolución urbana continua, Yo'City introduce además un mecanismo de expansión guiado por relaciones e interactivo con el usuario, que realiza una optimización del diseño consciente de la distancia y la semántica basada en grafos de escenas, garantizando un crecimiento urbano espacialmente coherente. Para evaluar exhaustivamente nuestro método, construimos un conjunto de datos de referencia diverso y diseñamos seis métricas multidimensionales que evalúan la calidad de la generación desde las perspectivas de semántica, geometría, textura y diseño. Experimentos exhaustivos demuestran que Yo'City supera consistentemente a los métodos state-of-the-art existentes en todos los aspectos de evaluación.
English
Realistic 3D city generation is fundamental to a wide range of applications, including virtual reality and digital twins. However, most existing methods rely on training a single diffusion model, which limits their ability to generate personalized and boundless city-scale scenes. In this paper, we present Yo'City, a novel agentic framework that enables user-customized and infinitely expandable 3D city generation by leveraging the reasoning and compositional capabilities of off-the-shelf large models. Specifically, Yo'City first conceptualize the city through a top-down planning strategy that defines a hierarchical "City-District-Grid" structure. The Global Planner determines the overall layout and potential functional districts, while the Local Designer further refines each district with detailed grid-level descriptions. Subsequently, the grid-level 3D generation is achieved through a "produce-refine-evaluate" isometric image synthesis loop, followed by image-to-3D generation. To simulate continuous city evolution, Yo'City further introduces a user-interactive, relationship-guided expansion mechanism, which performs scene graph-based distance- and semantics-aware layout optimization, ensuring spatially coherent city growth. To comprehensively evaluate our method, we construct a diverse benchmark dataset and design six multi-dimensional metrics that assess generation quality from the perspectives of semantics, geometry, texture, and layout. Extensive experiments demonstrate that Yo'City consistently outperforms existing state-of-the-art methods across all evaluation aspects.