RAISECity: Ein multimodales Agenten-Framework für realitätsnahe 3D-Welterstellung im Stadtmaßstab
RAISECity: A Multimodal Agent Framework for Reality-Aligned 3D World Generation at City-Scale
November 22, 2025
papers.authors: Shengyuan Wang, Zhiheng Zheng, Yu Shang, Lixuan He, Yangcheng Yu, Fan Hangyu, Jie Feng, Qingmin Liao, Yong Li
cs.AI
papers.abstract
Die Erzeugung von 3D-Stadtmodellen in Stadtmaßstab ist von großer Bedeutung für die Entwicklung von verkörpertter Intelligenz und Weltmodellen. Bestehende Methoden stehen jedoch vor erheblichen Herausforderungen in Bezug auf Qualität, Detailtreue und Skalierbarkeit bei der Generierung von 3D-Welten. Daher schlagen wir RAISECity vor, eine wirklichkeitsgetreue intelligente Synthese-Engine, die detaillierte 3D-Welten im Stadtmaßstab erzeugt. Wir führen ein agentenbasiertes Framework ein, das diverse multimodale Basistechnologien nutzt, um reales Weltwissen zu erfassen, robuste Zwischendarstellungen beizubehalten und komplexe 3D-Szenen zu konstruieren. Dieses agentenbasierte Design mit dynamischer Datenverarbeitung, iterativer Selbstreflexion und Verfeinerung sowie dem Aufruf fortschrittlicher multimodaler Werkzeuge minimiert kumulative Fehler und verbessert die Gesamtleistung. Umfangreiche quantitative Experimente und qualitative Analysen bestätigen die überlegene Leistung von RAISECity bei Realitätstreue, Formgenauigkeit, Texturqualität und ästhetischem Niveau, wobei eine Gewinnrate von über 90 % gegenüber existierenden Baseline-Modellen in der Gesamtwahrnehmungsqualität erreicht wird. Diese Kombination aus 3D-Qualität, Realitätstreue, Skalierbarkeit und nahtloser Kompatibilität mit Computergrafik-Pipelines macht RAISECity zu einer vielversprechenden Grundlage für Anwendungen in immersiven Medien, verkörpertter Intelligenz und Weltmodellen.
English
City-scale 3D generation is of great importance for the development of embodied intelligence and world models. Existing methods, however, face significant challenges regarding quality, fidelity, and scalability in 3D world generation. Thus, we propose RAISECity, a Reality-Aligned Intelligent Synthesis Engine that creates detailed, City-scale 3D worlds. We introduce an agentic framework that leverages diverse multimodal foundation tools to acquire real-world knowledge, maintain robust intermediate representations, and construct complex 3D scenes. This agentic design, featuring dynamic data processing, iterative self-reflection and refinement, and the invocation of advanced multimodal tools, minimizes cumulative errors and enhances overall performance. Extensive quantitative experiments and qualitative analyses validate the superior performance of RAISECity in real-world alignment, shape precision, texture fidelity, and aesthetics level, achieving over a 90% win-rate against existing baselines for overall perceptual quality. This combination of 3D quality, reality alignment, scalability, and seamless compatibility with computer graphics pipelines makes RAISECity a promising foundation for applications in immersive media, embodied intelligence, and world models.