ChatPaper.aiChatPaper

RAISECity : Un Cadre d'Agent Multimodal pour la Génération de Mondes 3D Alignés sur la Réalité à l'Échelle d'une Ville

RAISECity: A Multimodal Agent Framework for Reality-Aligned 3D World Generation at City-Scale

November 22, 2025
papers.authors: Shengyuan Wang, Zhiheng Zheng, Yu Shang, Lixuan He, Yangcheng Yu, Fan Hangyu, Jie Feng, Qingmin Liao, Yong Li
cs.AI

papers.abstract

La génération 3D à l'échelle urbaine revêt une importance cruciale pour le développement de l'intelligence incarnée et des modèles du monde. Les méthodes existantes rencontrent cependant des défis majeurs concernant la qualité, la fidélité et l'évolutivité dans la génération de mondes 3D. Nous proposons donc RAISECity, un moteur de synthèse intelligente aligné sur la réalité qui crée des mondes 3D détaillés à l'échelle urbaine. Nous introduisons un cadre agentique qui exploite divers outils fondamentaux multimodaux pour acquérir des connaissances du monde réel, maintenir des représentations intermédiaires robustes et construire des scènes 3D complexes. Cette conception agentique, caractérisée par un traitement dynamique des données, une autoréflexion et un affinement itératifs, et l'invocation d'outils multimodaux avancés, minimise les erreurs cumulatives et améliore les performances globales. Des expériences quantitatives approfondies et des analyses qualitatives valident la performance supérieure de RAISECity en termes d'alignement réaliste, de précision géométrique, de fidélité texturale et de niveau esthétique, atteignant un taux de préférence supérieur à 90% face aux méthodes de référence pour la qualité perceptuelle globale. Cette combinaison de qualité 3D, d'alignement réaliste, d'évolutivité et de compatibilité transparente avec les pipelines de synthèse d'images fait de RAISECity une base prometteuse pour les applications dans les médias immersifs, l'intelligence incarnée et les modèles du monde.
English
City-scale 3D generation is of great importance for the development of embodied intelligence and world models. Existing methods, however, face significant challenges regarding quality, fidelity, and scalability in 3D world generation. Thus, we propose RAISECity, a Reality-Aligned Intelligent Synthesis Engine that creates detailed, City-scale 3D worlds. We introduce an agentic framework that leverages diverse multimodal foundation tools to acquire real-world knowledge, maintain robust intermediate representations, and construct complex 3D scenes. This agentic design, featuring dynamic data processing, iterative self-reflection and refinement, and the invocation of advanced multimodal tools, minimizes cumulative errors and enhances overall performance. Extensive quantitative experiments and qualitative analyses validate the superior performance of RAISECity in real-world alignment, shape precision, texture fidelity, and aesthetics level, achieving over a 90% win-rate against existing baselines for overall perceptual quality. This combination of 3D quality, reality alignment, scalability, and seamless compatibility with computer graphics pipelines makes RAISECity a promising foundation for applications in immersive media, embodied intelligence, and world models.
PDF12December 1, 2025