마술도시: 언어 기반 미학 적응형 도시 생성 및 제어 가능한 3D 자산과 레이아웃
MajutsuCity: Language-driven Aesthetic-adaptive City Generation with Controllable 3D Assets and Layouts
November 25, 2025
저자: Zilong Huang, Jun He, Xiaobin Huang, Ziyi Xiong, Yang Luo, Junyan Ye, Weijia Li, Yiping Chen, Ting Han
cs.AI
초록
현실적인 3D 도시 생성은 세계 모델, 가상 현실 및 게임 개발의 기초적 과제로, 이상적인 도시 장면은 스타일적 다양성, 세밀함, 제어 가능성을 모두 충족해야 합니다. 그러나 기존 방법론은 텍스트 기반 생성이 제공하는 창의적 유연성과 명시적 구조 표현이 가능하게 하는 객체 수준 편집 기능 간의 균형을 맞추는 데 어려움을 겪습니다. 본 연구에서는 구조적으로 일관되고 스타일적으로 다양한 3D 도시 장면 합성을 위한 자연어 기반 미학 적응형 프레임워크인 MajutsuCity를 소개합니다. MajutsuCity는 도시를 제어 가능한 레이아웃, 에셋 및 재질의 조합으로 표현하며, 4단계 파이프라인을 통해 운영됩니다. 초기 생성 이상의 제어 기능을 확장하기 위해 5가지 객체 수준 작업을 지원하는 대화형 언어 기반 편집 에이전트인 MajutsuAgent를 추가로 통합합니다. 사실적이고 사용자 정의 가능한 장면 합성을 지원하기 위해 2D 의미론적 레이아웃 및 높이 맵, 다양한 3D 건물 에셋, 정제된 PBR 재질 및 스카이박스를 포함하며 각각 상세 주해가 수반된 고품질 다중 모달 데이터셋인 MajutsuDataset도 구축했습니다. 동시에 구조적 일관성, 장면 복잡도, 재질 정확도, 조명 분위기 등 핵심 차원을 포괄하는 실용적인 평가 메트릭 세트를 개발했습니다. 폭넓은 실험을 통해 MajutsuCity가 CityDreamer 대비 레이아웃 FID를 83.7%, CityCraft 대비 20.1% 감소시킴을 입증했습니다. 본 방법론은 모든 AQS 및 RDR 점수에서 1위를 기록하며 기존 방법론을 명백한 차이로 앞섰습니다. 이러한 결과는 MajutsuCity가 3D 도시 생성 분야에서 기하학적 정확도, 스타일 적응성, 의미론적 제어 가능성 측면에서 새로운 최첨단 기술임을 확인합니다. 본 프레임워크가 3D 도시 생성 연구의 새로운 방향을 고무시키길 기대합니다. 데이터셋과 코드는 https://github.com/LongHZ140516/MajutsuCity에서 공개될 예정입니다.
English
Generating realistic 3D cities is fundamental to world models, virtual reality, and game development, where an ideal urban scene must satisfy both stylistic diversity, fine-grained, and controllability. However, existing methods struggle to balance the creative flexibility offered by text-based generation with the object-level editability enabled by explicit structural representations. We introduce MajutsuCity, a natural language-driven and aesthetically adaptive framework for synthesizing structurally consistent and stylistically diverse 3D urban scenes. MajutsuCity represents a city as a composition of controllable layouts, assets, and materials, and operates through a four-stage pipeline. To extend controllability beyond initial generation, we further integrate MajutsuAgent, an interactive language-grounded editing agent} that supports five object-level operations. To support photorealistic and customizable scene synthesis, we also construct MajutsuDataset, a high-quality multimodal dataset} containing 2D semantic layouts and height maps, diverse 3D building assets, and curated PBR materials and skyboxes, each accompanied by detailed annotations. Meanwhile, we develop a practical set of evaluation metrics, covering key dimensions such as structural consistency, scene complexity, material fidelity, and lighting atmosphere. Extensive experiments demonstrate MajutsuCity reduces layout FID by 83.7% compared with CityDreamer and by 20.1% over CityCraft. Our method ranks first across all AQS and RDR scores, outperforming existing methods by a clear margin. These results confirm MajutsuCity as a new state-of-the-art in geometric fidelity, stylistic adaptability, and semantic controllability for 3D city generation. We expect our framework can inspire new avenues of research in 3D city generation. Our dataset and code will be released at https://github.com/LongHZ140516/MajutsuCity.