RAISECity: Een Multimodal Agentraamwerk voor Realiteitsafgestemde 3D-wereldgeneratie op Stadsniveau
RAISECity: A Multimodal Agent Framework for Reality-Aligned 3D World Generation at City-Scale
November 22, 2025
Auteurs: Shengyuan Wang, Zhiheng Zheng, Yu Shang, Lixuan He, Yangcheng Yu, Fan Hangyu, Jie Feng, Qingmin Liao, Yong Li
cs.AI
Samenvatting
Stadsomvattende 3D-generatie is van groot belang voor de ontwikkeling van embodied intelligence en wereldmodellen. Bestaande methoden kampen echter met aanzienlijke uitdagingen op het gebied van kwaliteit, nauwkeurigheid en schaalbaarheid bij 3D-wereldgeneratie. Daarom presenteren wij RAISECity, een Reality-Aligned Intelligent Synthesis Engine die gedetailleerde, stadsomvattende 3D-werelden creëert. Wij introduceren een agent-gebaseerd raamwerk dat diverse multimodale foundation tools benut om real-world kennis te verwerven, robuuste tussenrepresentaties te behouden en complexe 3D-scènes te construeren. Dit agent-ontwerp, met dynamische gegevensverwerking, iteratieve zelfreflectie en verfijning, en inzet van geavanceerde multimodale tools, minimaliseert cumulatieve fouten en verbetert de algehele prestaties. Uitgebreide kwantitatieve experimenten en kwalitatieve analyses valideren de superieure prestaties van RAISECity op het gebied van real-world alignering, vormnauwkeurigheid, textuurgetrouwheid en esthetisch niveau, met een win-rate van meer dan 90% ten opzichte van bestaande benchmarks voor algehele perceptuele kwaliteit. Deze combinatie van 3D-kwaliteit, realiteitsgetrouwheid, schaalbaarheid en naadloze compatibiliteit met computer graphics pipelines maakt RAISECity tot een veelbelovende basis voor toepassingen in immersive media, embodied intelligence en wereldmodellen.
English
City-scale 3D generation is of great importance for the development of embodied intelligence and world models. Existing methods, however, face significant challenges regarding quality, fidelity, and scalability in 3D world generation. Thus, we propose RAISECity, a Reality-Aligned Intelligent Synthesis Engine that creates detailed, City-scale 3D worlds. We introduce an agentic framework that leverages diverse multimodal foundation tools to acquire real-world knowledge, maintain robust intermediate representations, and construct complex 3D scenes. This agentic design, featuring dynamic data processing, iterative self-reflection and refinement, and the invocation of advanced multimodal tools, minimizes cumulative errors and enhances overall performance. Extensive quantitative experiments and qualitative analyses validate the superior performance of RAISECity in real-world alignment, shape precision, texture fidelity, and aesthetics level, achieving over a 90% win-rate against existing baselines for overall perceptual quality. This combination of 3D quality, reality alignment, scalability, and seamless compatibility with computer graphics pipelines makes RAISECity a promising foundation for applications in immersive media, embodied intelligence, and world models.