ChatPaper.aiChatPaper

Yo'City: Gepersonaliseerde en Grenzeloze 3D Realistische Stadsscène Generatie via Zelf-kritische Uitbreiding

Yo'City: Personalized and Boundless 3D Realistic City Scene Generation via Self-Critic Expansion

November 24, 2025
Auteurs: Keyang Lu, Sifan Zhou, Hongbin Xu, Gang Xu, Zhifei Yang, Yikai Wang, Zhen Xiao, Jieyi Long, Ming Li
cs.AI

Samenvatting

Realistische 3D-stadsgeneratie is fundamenteel voor een breed scala aan toepassingen, waaronder virtual reality en digitale tweelingen. De meeste bestaande methoden zijn echter gebaseerd op het trainen van één enkel diffusiemodel, wat hun vermogen beperkt om gepersonaliseerde en grenzeloze stadsgezichten te genereren. In dit artikel presenteren we Yo'City, een nieuw agent-gebaseerd raamwerk dat gebruikersgepersonaliseerde en oneindig uitbreidbare 3D-stadsgeneratie mogelijk maakt door gebruik te maken van de redeneer- en compositiecapaciteiten van kant-en-klare grote modellen. Concreet conceptualiseert Yo'City eerst de stad via een top-down planningsstrategie die een hiërarchische "Stad-Wijk-Grid"-structuur definieert. De Global Planner bepaalt de algemene lay-out en potentiële functionele wijken, terwijl de Local Designer elke wijk verder verfijnt met gedetailleerde grid-beschrijvingen. Vervolgens wordt de grid-level 3D-generatie bereikt door een "produceer-verfijn-evalueer" isometrische beeld synthese-lus, gevolgd door beeld-naar-3D-generatie. Om continue stadsontwikkeling te simuleren, introduceert Yo'City verder een gebruikersinteractief, relatie-gestuurd uitbreidingsmechanisme, dat lay-outoptimalisatie uitvoert op basis van scenegrafen met afstands- en semantiekbewustzijn, waardoor ruimtelijk coherente stadsgroei wordt gegarandeerd. Om onze methode uitgebreid te evalueren, construeren we een diverse benchmarkdataset en ontwerpen we zes multidimensionale metrieken die de generatiekwaliteit beoordelen vanuit het perspectief van semantiek, geometrie, textuur en lay-out. Uitgebreide experimenten tonen aan dat Yo'City consequent beter presteert dan bestaande state-of-the-art methoden op alle evaluatieaspecten.
English
Realistic 3D city generation is fundamental to a wide range of applications, including virtual reality and digital twins. However, most existing methods rely on training a single diffusion model, which limits their ability to generate personalized and boundless city-scale scenes. In this paper, we present Yo'City, a novel agentic framework that enables user-customized and infinitely expandable 3D city generation by leveraging the reasoning and compositional capabilities of off-the-shelf large models. Specifically, Yo'City first conceptualize the city through a top-down planning strategy that defines a hierarchical "City-District-Grid" structure. The Global Planner determines the overall layout and potential functional districts, while the Local Designer further refines each district with detailed grid-level descriptions. Subsequently, the grid-level 3D generation is achieved through a "produce-refine-evaluate" isometric image synthesis loop, followed by image-to-3D generation. To simulate continuous city evolution, Yo'City further introduces a user-interactive, relationship-guided expansion mechanism, which performs scene graph-based distance- and semantics-aware layout optimization, ensuring spatially coherent city growth. To comprehensively evaluate our method, we construct a diverse benchmark dataset and design six multi-dimensional metrics that assess generation quality from the perspectives of semantics, geometry, texture, and layout. Extensive experiments demonstrate that Yo'City consistently outperforms existing state-of-the-art methods across all evaluation aspects.
PDF62December 1, 2025