RAISECity: Un Marco de Agentes Multimodales para la Generación de Mundos 3D Alineados con la Realidad a Escala Urbana
RAISECity: A Multimodal Agent Framework for Reality-Aligned 3D World Generation at City-Scale
November 22, 2025
Autores: Shengyuan Wang, Zhiheng Zheng, Yu Shang, Lixuan He, Yangcheng Yu, Fan Hangyu, Jie Feng, Qingmin Liao, Yong Li
cs.AI
Resumen
La generación 3D a escala urbana es de vital importancia para el desarrollo de la inteligencia corporeizada y los modelos del mundo. Sin embargo, los métodos existentes enfrentan desafíos significativos en cuanto a calidad, fidelidad y escalabilidad en la generación de mundos 3D. Por ello, proponemos RAISECity, un motor de síntesis inteligente alineado con la realidad que crea mundos 3D detallados a escala urbana. Introducimos un marco agencial que aprovecha diversas herramientas fundamentales multimodales para adquirir conocimiento del mundo real, mantener representaciones intermedias robustas y construir escenas 3D complejas. Este diseño agencial, que incluye procesamiento dinámico de datos, reflexión y refinamiento iterativos, e invocación de herramientas multimodales avanzadas, minimiza los errores acumulativos y mejora el rendimiento general. Extensos experimentos cuantitativos y análisis cualitativos validan el rendimiento superior de RAISECity en alineación con la realidad, precisión de formas, fidelidad textural y nivel estético, logrando una tasa de preferencia superior al 90% frente a los métodos de referencia en calidad perceptual general. Esta combinación de calidad 3D, alineación con la realidad, escalabilidad y compatibilidad perfecta con los pipelines de gráficos por computadora convierte a RAISECity en una base prometedora para aplicaciones en medios inmersivos, inteligencia corporeizada y modelos del mundo.
English
City-scale 3D generation is of great importance for the development of embodied intelligence and world models. Existing methods, however, face significant challenges regarding quality, fidelity, and scalability in 3D world generation. Thus, we propose RAISECity, a Reality-Aligned Intelligent Synthesis Engine that creates detailed, City-scale 3D worlds. We introduce an agentic framework that leverages diverse multimodal foundation tools to acquire real-world knowledge, maintain robust intermediate representations, and construct complex 3D scenes. This agentic design, featuring dynamic data processing, iterative self-reflection and refinement, and the invocation of advanced multimodal tools, minimizes cumulative errors and enhances overall performance. Extensive quantitative experiments and qualitative analyses validate the superior performance of RAISECity in real-world alignment, shape precision, texture fidelity, and aesthetics level, achieving over a 90% win-rate against existing baselines for overall perceptual quality. This combination of 3D quality, reality alignment, scalability, and seamless compatibility with computer graphics pipelines makes RAISECity a promising foundation for applications in immersive media, embodied intelligence, and world models.