ChatPaper.aiChatPaper

MajutsuCity: Generación de Ciudades Estéticamente Adaptables Basada en Lenguaje con Recursos 3D y Diseños Controlables

MajutsuCity: Language-driven Aesthetic-adaptive City Generation with Controllable 3D Assets and Layouts

November 25, 2025
Autores: Zilong Huang, Jun He, Xiaobin Huang, Ziyi Xiong, Yang Luo, Junyan Ye, Weijia Li, Yiping Chen, Ting Han
cs.AI

Resumen

La generación de ciudades 3D realistas es fundamental para los modelos de mundo, la realidad virtual y el desarrollo de videojuegos, donde una escena urbana ideal debe satisfacer simultáneamente la diversidad estilística, el detalle fino y la controlabilidad. Sin embargo, los métodos existentes tienen dificultades para equilibrar la flexibilidad creativa que ofrece la generación basada en texto con la capacidad de edición a nivel de objeto que permiten las representaciones estructurales explícitas. Presentamos MajutsuCity, un marco impulsado por lenguaje natural y estéticamente adaptable para sintetizar escenas urbanas 3D estructuralmente consistentes y estilísticamente diversas. MajutsuCity representa una ciudad como una composición de diseños, activos y materiales controlables, y opera a través de un pipeline de cuatro etapas. Para extender la controlabilidad más allá de la generación inicial, integramos además MajutsuAgent, un agente de edición interactivo basado en lenguaje que soporta cinco operaciones a nivel de objeto. Para respaldar la síntesis de escenas fotorrealistas y personalizables, también construimos MajutsuDataset, un conjunto de datos multimodal de alta calidad que contiene diseños semánticos 2D y mapas de altura, diversos activos 3D de edificios, y materiales PBR y skyboxes seleccionados, cada uno acompañado de anotaciones detalladas. Paralelamente, desarrollamos un conjunto práctico de métricas de evaluación, que cubre dimensiones clave como la consistencia estructural, la complejidad de la escena, la fidelidad de los materiales y la atmósfera de iluminación. Experimentos exhaustivos demuestran que MajutsuCity reduce el FID del diseño en un 83.7% en comparación con CityDreamer y en un 20.1% frente a CityCraft. Nuestro método ocupa el primer puesto en todas las puntuaciones AQS y RDR, superando a los métodos existentes por un claro margen. Estos resultados confirman a MajutsuCity como un nuevo estado del arte en fidelidad geométrica, adaptabilidad estilística y controlabilidad semántica para la generación de ciudades 3D. Esperamos que nuestro marco pueda inspirar nuevas vías de investigación en la generación de ciudades 3D. Nuestro conjunto de datos y código se publicarán en https://github.com/LongHZ140516/MajutsuCity.
English
Generating realistic 3D cities is fundamental to world models, virtual reality, and game development, where an ideal urban scene must satisfy both stylistic diversity, fine-grained, and controllability. However, existing methods struggle to balance the creative flexibility offered by text-based generation with the object-level editability enabled by explicit structural representations. We introduce MajutsuCity, a natural language-driven and aesthetically adaptive framework for synthesizing structurally consistent and stylistically diverse 3D urban scenes. MajutsuCity represents a city as a composition of controllable layouts, assets, and materials, and operates through a four-stage pipeline. To extend controllability beyond initial generation, we further integrate MajutsuAgent, an interactive language-grounded editing agent} that supports five object-level operations. To support photorealistic and customizable scene synthesis, we also construct MajutsuDataset, a high-quality multimodal dataset} containing 2D semantic layouts and height maps, diverse 3D building assets, and curated PBR materials and skyboxes, each accompanied by detailed annotations. Meanwhile, we develop a practical set of evaluation metrics, covering key dimensions such as structural consistency, scene complexity, material fidelity, and lighting atmosphere. Extensive experiments demonstrate MajutsuCity reduces layout FID by 83.7% compared with CityDreamer and by 20.1% over CityCraft. Our method ranks first across all AQS and RDR scores, outperforming existing methods by a clear margin. These results confirm MajutsuCity as a new state-of-the-art in geometric fidelity, stylistic adaptability, and semantic controllability for 3D city generation. We expect our framework can inspire new avenues of research in 3D city generation. Our dataset and code will be released at https://github.com/LongHZ140516/MajutsuCity.
PDF82December 1, 2025