ChatPaper.aiChatPaper

MajutsuCity : Génération de villes à l'esthétique adaptative pilotée par le langage, avec des actifs 3D et des agencements contrôlables

MajutsuCity: Language-driven Aesthetic-adaptive City Generation with Controllable 3D Assets and Layouts

November 25, 2025
papers.authors: Zilong Huang, Jun He, Xiaobin Huang, Ziyi Xiong, Yang Luo, Junyan Ye, Weijia Li, Yiping Chen, Ting Han
cs.AI

papers.abstract

La génération de villes 3D réalistes est fondamentale pour les modèles de monde, la réalité virtuelle et le développement de jeux, où une scène urbaine idéale doit satisfaire à la fois la diversité stylistique, la granularité fine et la contrôlabilité. Cependant, les méthodes existantes peinent à équilibrer la flexibilité créative offerte par la génération basée sur le texte avec l'éditabilité au niveau objet permise par les représentations structurelles explicites. Nous présentons MajutsuCity, un framework piloté par le langage naturel et esthétiquement adaptatif pour la synthèse de scènes urbaines 3D structurellement cohérentes et stylistiquement diverses. MajutsuCity représente une ville comme une composition de layouts, d'assets et de matériaux contrôlables, et fonctionne via un pipeline en quatre étapes. Pour étendre la contrôlabilité au-delà de la génération initiale, nous intégrons en outre MajutsuAgent, un agent d'édition interactif ancré dans le langage qui prend en charge cinq opérations au niveau objet. Pour soutenir la synthèse de scènes photoréalistes et personnalisables, nous construisons également MajutsuDataset, un jeu de données multimodal de haute qualité contenant des layouts sémantiques 2D et des height maps, des assets bâtiments 3D diversifiés, ainsi que des matériaux PBR et des skyboxes sélectionnés, chacun accompagné d'annotations détaillées. Parallèlement, nous développons un ensemble pratique de métriques d'évaluation, couvrant des dimensions clés telles que la cohérence structurelle, la complexité de la scène, la fidélité des matériaux et l'atmosphère lumineuse. Des expériences approfondies démontrent que MajutsuCity réduit le FID des layouts de 83,7 % par rapport à CityDreamer et de 20,1 % par rapport à CityCraft. Notre méthode se classe première sur tous les scores AQS et RDR, surpassant les méthodes existantes par une marge significative. Ces résultats confirment MajutsuCity comme un nouvel état de l'art en matière de fidélité géométrique, d'adaptabilité stylistique et de contrôlabilité sémantique pour la génération de villes 3D. Nous espérons que notre framework pourra inspirer de nouvelles avenues de recherche dans la génération de villes 3D. Notre jeu de données et notre code seront publiés à l'adresse https://github.com/LongHZ140516/MajutsuCity.
English
Generating realistic 3D cities is fundamental to world models, virtual reality, and game development, where an ideal urban scene must satisfy both stylistic diversity, fine-grained, and controllability. However, existing methods struggle to balance the creative flexibility offered by text-based generation with the object-level editability enabled by explicit structural representations. We introduce MajutsuCity, a natural language-driven and aesthetically adaptive framework for synthesizing structurally consistent and stylistically diverse 3D urban scenes. MajutsuCity represents a city as a composition of controllable layouts, assets, and materials, and operates through a four-stage pipeline. To extend controllability beyond initial generation, we further integrate MajutsuAgent, an interactive language-grounded editing agent} that supports five object-level operations. To support photorealistic and customizable scene synthesis, we also construct MajutsuDataset, a high-quality multimodal dataset} containing 2D semantic layouts and height maps, diverse 3D building assets, and curated PBR materials and skyboxes, each accompanied by detailed annotations. Meanwhile, we develop a practical set of evaluation metrics, covering key dimensions such as structural consistency, scene complexity, material fidelity, and lighting atmosphere. Extensive experiments demonstrate MajutsuCity reduces layout FID by 83.7% compared with CityDreamer and by 20.1% over CityCraft. Our method ranks first across all AQS and RDR scores, outperforming existing methods by a clear margin. These results confirm MajutsuCity as a new state-of-the-art in geometric fidelity, stylistic adaptability, and semantic controllability for 3D city generation. We expect our framework can inspire new avenues of research in 3D city generation. Our dataset and code will be released at https://github.com/LongHZ140516/MajutsuCity.
PDF82December 1, 2025