ChatPaper.aiChatPaper

Yo'City: Generazione Personalizzata e Illimitata di Scene Cittadine 3D Realistiche tramite Espansione Auto-Critica

Yo'City: Personalized and Boundless 3D Realistic City Scene Generation via Self-Critic Expansion

November 24, 2025
Autori: Keyang Lu, Sifan Zhou, Hongbin Xu, Gang Xu, Zhifei Yang, Yikai Wang, Zhen Xiao, Jieyi Long, Ming Li
cs.AI

Abstract

La generazione realistica di città 3D è fondamentale per un'ampia gamma di applicazioni, inclusi la realtà virtuale e i gemelli digitali. Tuttavia, la maggior parte dei metodi esistenti si basa sull'addestramento di un singolo modello di diffusione, il che limita la loro capacità di generare scene su scala cittadina personalizzate e illimitate. In questo articolo, presentiamo Yo'City, un nuovo framework agente che abilita la generazione di città 3D personalizzabile dall'utente e infinitamente espandibile, sfruttando le capacità di ragionamento e composizione di modelli di grandi dimensioni preesistenti. Nello specifico, Yo'City concettualizza prima la città attraverso una strategia di pianificazione top-down che definisce una struttura gerarchica "Città-Distretto-Griglia". Il Pianificatore Globale determina la disposizione complessiva e i potenziali distretti funzionali, mentre il Progettista Locale perfeziona ulteriormente ogni distretto con descrizioni dettagliate a livello di griglia. Successivamente, la generazione 3D a livello di griglia viene ottenuta attraverso un ciclo di sintesi di immagini isometriche "produci-perfeziona-valuta", seguito dalla generazione da immagine a 3D. Per simulare un'evoluzione continua della città, Yo'City introduce inoltre un meccanismo di espansione guidato dalle relazioni e interattivo per l'utente, che esegue un'ottimizzazione del layout consapevole della distanza e della semantica basata su grafi di scena, garantendo una crescita cittadina spazialmente coerente. Per valutare in modo completo il nostro metodo, costruiamo un dataset di benchmark diversificato e progettiamo sei metriche multidimensionali che valutano la qualità della generazione dalle prospettive di semantica, geometria, texture e layout. Esperimenti estensivi dimostrano che Yo'City supera costantemente i metodi state-of-the-art esistenti in tutti gli aspetti valutativi.
English
Realistic 3D city generation is fundamental to a wide range of applications, including virtual reality and digital twins. However, most existing methods rely on training a single diffusion model, which limits their ability to generate personalized and boundless city-scale scenes. In this paper, we present Yo'City, a novel agentic framework that enables user-customized and infinitely expandable 3D city generation by leveraging the reasoning and compositional capabilities of off-the-shelf large models. Specifically, Yo'City first conceptualize the city through a top-down planning strategy that defines a hierarchical "City-District-Grid" structure. The Global Planner determines the overall layout and potential functional districts, while the Local Designer further refines each district with detailed grid-level descriptions. Subsequently, the grid-level 3D generation is achieved through a "produce-refine-evaluate" isometric image synthesis loop, followed by image-to-3D generation. To simulate continuous city evolution, Yo'City further introduces a user-interactive, relationship-guided expansion mechanism, which performs scene graph-based distance- and semantics-aware layout optimization, ensuring spatially coherent city growth. To comprehensively evaluate our method, we construct a diverse benchmark dataset and design six multi-dimensional metrics that assess generation quality from the perspectives of semantics, geometry, texture, and layout. Extensive experiments demonstrate that Yo'City consistently outperforms existing state-of-the-art methods across all evaluation aspects.
PDF62December 1, 2025