RAISECity: Uma Estrutura de Agente Multimodal para Geração de Mundos 3D Alinhados com a Realidade em Escala Urbana
RAISECity: A Multimodal Agent Framework for Reality-Aligned 3D World Generation at City-Scale
November 22, 2025
Autores: Shengyuan Wang, Zhiheng Zheng, Yu Shang, Lixuan He, Yangcheng Yu, Fan Hangyu, Jie Feng, Qingmin Liao, Yong Li
cs.AI
Resumo
A geração 3D em escala urbana é de grande importância para o desenvolvimento de inteligência incorporada e modelos de mundo. No entanto, os métodos existentes enfrentam desafios significativos em relação à qualidade, fidelidade e escalabilidade na geração de mundos 3D. Assim, propomos o RAISECity, um Motor de Síntese Inteligente Alinhado com a Realidade que cria mundos 3D detalhados em escala urbana. Introduzimos uma estrutura agentiva que aproveita diversas ferramentas de base multimodais para adquirir conhecimento do mundo real, manter representações intermediárias robustas e construir cenas 3D complexas. Este design agentivo, que apresenta processamento dinâmico de dados, autorreflexão e refinamento iterativos, e invocação de ferramentas multimodais avançadas, minimiza erros cumulativos e melhora o desempenho geral. Extensos experimentos quantitativos e análises qualitativas validam o desempenho superior do RAISECity no alinhamento com a realidade, precisão de forma, fidelidade de textura e nível estético, alcançando uma taxa de superioridade superior a 90% em relação às linhas de base existentes para a qualidade perceptual geral. Esta combinação de qualidade 3D, alinhamento com a realidade, escalabilidade e compatibilidade perfeita com pipelines de computação gráfica torna o RAISECity uma base promissora para aplicações em mídia imersiva, inteligência incorporada e modelos de mundo.
English
City-scale 3D generation is of great importance for the development of embodied intelligence and world models. Existing methods, however, face significant challenges regarding quality, fidelity, and scalability in 3D world generation. Thus, we propose RAISECity, a Reality-Aligned Intelligent Synthesis Engine that creates detailed, City-scale 3D worlds. We introduce an agentic framework that leverages diverse multimodal foundation tools to acquire real-world knowledge, maintain robust intermediate representations, and construct complex 3D scenes. This agentic design, featuring dynamic data processing, iterative self-reflection and refinement, and the invocation of advanced multimodal tools, minimizes cumulative errors and enhances overall performance. Extensive quantitative experiments and qualitative analyses validate the superior performance of RAISECity in real-world alignment, shape precision, texture fidelity, and aesthetics level, achieving over a 90% win-rate against existing baselines for overall perceptual quality. This combination of 3D quality, reality alignment, scalability, and seamless compatibility with computer graphics pipelines makes RAISECity a promising foundation for applications in immersive media, embodied intelligence, and world models.