Yo'City: Personalisierte und grenzenlose 3D-realistische Stadtszenengenerierung via Self-Critic Expansion
Yo'City: Personalized and Boundless 3D Realistic City Scene Generation via Self-Critic Expansion
November 24, 2025
papers.authors: Keyang Lu, Sifan Zhou, Hongbin Xu, Gang Xu, Zhifei Yang, Yikai Wang, Zhen Xiao, Jieyi Long, Ming Li
cs.AI
papers.abstract
Die realistische 3D-Stadterzeugung ist grundlegend für eine Vielzahl von Anwendungen, einschließlich Virtual Reality und digitaler Zwillinge. Allerdings stützen sich die meisten bestehenden Methoden auf das Training eines einzelnen Diffusionsmodells, was ihre Fähigkeit zur Erzeugung personalisierter und grenzenloser städtischer Szenen einschränkt. In diesem Artikel stellen wir Yo'City vor, ein neuartiges agentenbasiertes Framework, das durch Nutzung der Reasoning- und Kompositionsfähigkeiten von Standard-Großmodellen eine benutzerdefinierte und unendlich erweiterbare 3D-Stadterzeugung ermöglicht. Konkret konzeptualisiert Yo'City die Stadt zunächst durch eine Top-Down-Planungsstrategie, die eine hierarchische "Stadt-Bezirk-Raster"-Struktur definiert. Der Globale Planer bestimmt das Gesamtlayout und potenzielle Funktionsbezirke, während der Lokale Designer jeden Bezirk mit detaillierten Rasterbeschreibungen weiter verfeinert. Anschließend wird die Raster-basierte 3D-Erzeugung durch eine "Produzieren-Verfeinern-Bewerten"-Schleife zur isometrischen Bildsynthese erreicht, gefolgt von einer Bild-zu-3D-Generierung. Um kontinuierliche Stadtentwicklung zu simulieren, führt Yo'City weiterhin einen benutzerinteraktiven, beziehungsgesteuerten Erweiterungsmechanismus ein, der eine auf Szenengraphen basierende distanz- und semantikbewusste Layoutoptimierung durchführt und so räumlich kohärentes Stadtwachstum gewährleistet. Um unsere Methode umfassend zu evaluieren, erstellen wir einen diversen Benchmark-Datensatz und entwerfen sechs multidimensionale Metriken, die die Erzeugungsqualität aus semantischer, geometrischer, texturaler und layoutbezogener Perspektive bewerten. Umfangreiche Experimente zeigen, dass Yo'City durchgängig alle existierenden State-of-the-Art-Methoden in allen Evaluierungsaspekten übertrifft.
English
Realistic 3D city generation is fundamental to a wide range of applications, including virtual reality and digital twins. However, most existing methods rely on training a single diffusion model, which limits their ability to generate personalized and boundless city-scale scenes. In this paper, we present Yo'City, a novel agentic framework that enables user-customized and infinitely expandable 3D city generation by leveraging the reasoning and compositional capabilities of off-the-shelf large models. Specifically, Yo'City first conceptualize the city through a top-down planning strategy that defines a hierarchical "City-District-Grid" structure. The Global Planner determines the overall layout and potential functional districts, while the Local Designer further refines each district with detailed grid-level descriptions. Subsequently, the grid-level 3D generation is achieved through a "produce-refine-evaluate" isometric image synthesis loop, followed by image-to-3D generation. To simulate continuous city evolution, Yo'City further introduces a user-interactive, relationship-guided expansion mechanism, which performs scene graph-based distance- and semantics-aware layout optimization, ensuring spatially coherent city growth. To comprehensively evaluate our method, we construct a diverse benchmark dataset and design six multi-dimensional metrics that assess generation quality from the perspectives of semantics, geometry, texture, and layout. Extensive experiments demonstrate that Yo'City consistently outperforms existing state-of-the-art methods across all evaluation aspects.