ChatPaper.aiChatPaper

RAISECity: Un Framework Agente Multimodale per la Generazione di Mondi 3D Allineati alla Realtà su Scala Urbana

RAISECity: A Multimodal Agent Framework for Reality-Aligned 3D World Generation at City-Scale

November 22, 2025
Autori: Shengyuan Wang, Zhiheng Zheng, Yu Shang, Lixuan He, Yangcheng Yu, Fan Hangyu, Jie Feng, Qingmin Liao, Yong Li
cs.AI

Abstract

La generazione 3D su scala urbana è di fondamentale importanza per lo sviluppo dell'intelligenza incarnata e dei modelli del mondo. I metodi esistenti, tuttavia, affrontano sfide significative in termini di qualità, fedeltà e scalabilità nella generazione di mondi 3D. Pertanto, proponiamo RAISECity, un motore di sintesi intelligente allineato alla realtà che crea mondi 3D dettagliati su scala urbana. Introduciamo un framework agenziale che sfrutta diversi strumenti foundation multimodali per acquisire conoscenze del mondo reale, mantenere rappresentazioni intermedie robuste e costruire scene 3D complesse. Questo design agenziale, caratterizzato da elaborazione dinamica dei dati, autoriflessione e perfezionamento iterativi e invocazione di strumenti multimodali avanzati, minimizza gli errori cumulativi e migliora le prestazioni complessive. Esperimenti quantitativi estesi e analisi qualitative convalidano le prestazioni superiori di RAISECity nell'allineamento al mondo reale, precisione delle forme, fedeltà delle texture e livello estetico, raggiungendo un tasso di vittoria superiore al 90% rispetto ai baseline esistenti per la qualità percettiva complessiva. Questa combinazione di qualità 3D, allineamento alla realtà, scalabilità e compatibilità senza soluzione di continuità con le pipeline di computer grafica rende RAISECity una base promettente per applicazioni nei media immersivi, nell'intelligenza incarnata e nei modelli del mondo.
English
City-scale 3D generation is of great importance for the development of embodied intelligence and world models. Existing methods, however, face significant challenges regarding quality, fidelity, and scalability in 3D world generation. Thus, we propose RAISECity, a Reality-Aligned Intelligent Synthesis Engine that creates detailed, City-scale 3D worlds. We introduce an agentic framework that leverages diverse multimodal foundation tools to acquire real-world knowledge, maintain robust intermediate representations, and construct complex 3D scenes. This agentic design, featuring dynamic data processing, iterative self-reflection and refinement, and the invocation of advanced multimodal tools, minimizes cumulative errors and enhances overall performance. Extensive quantitative experiments and qualitative analyses validate the superior performance of RAISECity in real-world alignment, shape precision, texture fidelity, and aesthetics level, achieving over a 90% win-rate against existing baselines for overall perceptual quality. This combination of 3D quality, reality alignment, scalability, and seamless compatibility with computer graphics pipelines makes RAISECity a promising foundation for applications in immersive media, embodied intelligence, and world models.
PDF12December 1, 2025