ChatPaper.aiChatPaper

Yo'City : Génération de scènes urbaines 3D réalistes personnalisées et illimitées via l'expansion autocritique

Yo'City: Personalized and Boundless 3D Realistic City Scene Generation via Self-Critic Expansion

November 24, 2025
papers.authors: Keyang Lu, Sifan Zhou, Hongbin Xu, Gang Xu, Zhifei Yang, Yikai Wang, Zhen Xiao, Jieyi Long, Ming Li
cs.AI

papers.abstract

La génération réaliste de villes en 3D est fondamentale pour un large éventail d'applications, incluant la réalité virtuelle et les jumeaux numériques. Cependant, la plupart des méthodes existantes reposent sur l'entraînement d'un unique modèle de diffusion, ce qui limite leur capacité à générer des scènes à l'échelle d'une ville personnalisées et illimitées. Dans cet article, nous présentons Yo'City, une nouvelle architecture agentielle qui permet une génération de villes 3D personnalisable par l'utilisateur et infiniment extensible en exploitant les capacités de raisonnement et de composition de grands modèles disponibles sur étagère. Concrètement, Yo'City conceptualise d'abord la ville via une stratégie de planification descendante qui définit une structure hiérarchique « Ville-Quartier-Quadrillage ». Le Planificateur Global détermine la disposition d'ensemble et les quartiers fonctionnels potentiels, tandis que le Concepteur Local affine ensuite chaque quartier avec des descriptions détaillées au niveau du quadrillage. Par la suite, la génération 3D au niveau du quadrillage est réalisée via une boucle de synthèse d'images isométriques « produire-affiner-évaluer », suivie d'une génération image-à-3D. Pour simuler une évolution continue de la ville, Yo'City introduit en outre un mécanisme d'expansion guidé par les relations et interactif avec l'utilisateur, qui effectue une optimisation de la disposition prenant en compte les distances et la sémantique via des graphes de scène, garantissant ainsi une croissance urbaine spatialement cohérente. Pour évaluer notre méthode de manière exhaustive, nous avons constitué un jeu de données de référence diversifié et conçu six métriques multidimensionnelles qui évaluent la qualité de la génération sous les angles de la sémantique, de la géométrie, de la texture et de la disposition. Des expériences approfondies démontrent que Yo'City surpasse constamment les méthodes état de l'art existantes dans tous les aspects de l'évaluation.
English
Realistic 3D city generation is fundamental to a wide range of applications, including virtual reality and digital twins. However, most existing methods rely on training a single diffusion model, which limits their ability to generate personalized and boundless city-scale scenes. In this paper, we present Yo'City, a novel agentic framework that enables user-customized and infinitely expandable 3D city generation by leveraging the reasoning and compositional capabilities of off-the-shelf large models. Specifically, Yo'City first conceptualize the city through a top-down planning strategy that defines a hierarchical "City-District-Grid" structure. The Global Planner determines the overall layout and potential functional districts, while the Local Designer further refines each district with detailed grid-level descriptions. Subsequently, the grid-level 3D generation is achieved through a "produce-refine-evaluate" isometric image synthesis loop, followed by image-to-3D generation. To simulate continuous city evolution, Yo'City further introduces a user-interactive, relationship-guided expansion mechanism, which performs scene graph-based distance- and semantics-aware layout optimization, ensuring spatially coherent city growth. To comprehensively evaluate our method, we construct a diverse benchmark dataset and design six multi-dimensional metrics that assess generation quality from the perspectives of semantics, geometry, texture, and layout. Extensive experiments demonstrate that Yo'City consistently outperforms existing state-of-the-art methods across all evaluation aspects.
PDF62December 1, 2025