Yo'City: Geração Personalizada e Ilimitada de Cenas Urbanas 3D Realistas via Expansão Autocrítica
Yo'City: Personalized and Boundless 3D Realistic City Scene Generation via Self-Critic Expansion
November 24, 2025
Autores: Keyang Lu, Sifan Zhou, Hongbin Xu, Gang Xu, Zhifei Yang, Yikai Wang, Zhen Xiao, Jieyi Long, Ming Li
cs.AI
Resumo
A geração realista de cidades 3D é fundamental para uma ampla gama de aplicações, incluindo realidade virtual e *digital twins*. No entanto, a maioria dos métodos existentes depende do treinamento de um único modelo de difusão, o que limita sua capacidade de gerar cenas em escala urbana personalizadas e ilimitadas. Neste artigo, apresentamos o Yo'City, uma nova estrutura agentiva que permite a geração de cidades 3D personalizáveis pelo utilizador e infinitamente expansíveis, aproveitando as capacidades de raciocínio e composição de modelos de grande porte disponíveis no mercado. Especificamente, o Yo'City primeiro conceptualiza a cidade através de uma estratégia de planeamento *top-down* que define uma estrutura hierárquica "Cidade-Distrito-Grelha". O Planeador Global determina o layout geral e os potenciais distritos funcionais, enquanto o Designer Local refina ainda mais cada distrito com descrições detalhadas ao nível da grelha. Posteriormente, a geração 3D ao nível da grelha é alcançada através de um ciclo de síntese de imagem isométrica "produzir-refinar-avaliar", seguido pela geração de imagem-para-3D. Para simular uma evolução contínua da cidade, o Yo'City introduz ainda um mecanismo de expansão interativo com o utilizador e guiado por relações, que executa uma otimização de layout com consciência da distância e da semântica baseada em grafos de cena, garantindo um crescimento urbano espacialmente coerente. Para avaliar abrangentemente o nosso método, construímos um conjunto de dados de referência diversificado e projetámos seis métricas multidimensionais que avaliam a qualidade da geração a partir das perspetivas de semântica, geometria, textura e layout. Experiências extensivas demonstram que o Yo'City supera consistentemente os métodos state-of-the-art existentes em todos os aspetos de avaliação.
English
Realistic 3D city generation is fundamental to a wide range of applications, including virtual reality and digital twins. However, most existing methods rely on training a single diffusion model, which limits their ability to generate personalized and boundless city-scale scenes. In this paper, we present Yo'City, a novel agentic framework that enables user-customized and infinitely expandable 3D city generation by leveraging the reasoning and compositional capabilities of off-the-shelf large models. Specifically, Yo'City first conceptualize the city through a top-down planning strategy that defines a hierarchical "City-District-Grid" structure. The Global Planner determines the overall layout and potential functional districts, while the Local Designer further refines each district with detailed grid-level descriptions. Subsequently, the grid-level 3D generation is achieved through a "produce-refine-evaluate" isometric image synthesis loop, followed by image-to-3D generation. To simulate continuous city evolution, Yo'City further introduces a user-interactive, relationship-guided expansion mechanism, which performs scene graph-based distance- and semantics-aware layout optimization, ensuring spatially coherent city growth. To comprehensively evaluate our method, we construct a diverse benchmark dataset and design six multi-dimensional metrics that assess generation quality from the perspectives of semantics, geometry, texture, and layout. Extensive experiments demonstrate that Yo'City consistently outperforms existing state-of-the-art methods across all evaluation aspects.