ChatPaper.aiChatPaper

RAISECity: 도시 규모 현실 기반 3D 세계 생성을 위한 멀티모달 에이전트 프레임워크

RAISECity: A Multimodal Agent Framework for Reality-Aligned 3D World Generation at City-Scale

November 22, 2025
저자: Shengyuan Wang, Zhiheng Zheng, Yu Shang, Lixuan He, Yangcheng Yu, Fan Hangyu, Jie Feng, Qingmin Liao, Yong Li
cs.AI

초록

도시 규모 3D 생성은 구현형 인공지능과 세계 모델 발전에 매우 중요합니다. 그러나 기존 방법론들은 3D 세계 생성에 있어 품질, 정확도, 확장성 측면에서 상당한 어려움에 직면해 있습니다. 이에 본 논문에서는 세부적인 도시 규모의 3D 세계를 생성하는 Reality-Aligned Intelligent Synthesis Engine인 RAISECity를 제안합니다. 우리는 다양한 멀티모달 기반 도구를 활용하여 실세계 지식을 습득하고, 견고한 중간 표현을 유지하며, 복잡한 3D 장면을 구축하는 에이전트 기반 프레임워크를 소개합니다. 동적 데이터 처리, 반복적 자기 반성 및 정제, 고급 멀티모달 도구 호출을 특징으로 하는 이 에이전트 설계는 누적 오류를 최소화하고 전반적인 성능을 향상시킵니다. 광범위한 정량적 실험과 정성적 분석을 통해 RAISECity가 실세계 정합성, 형상 정밀도, 텍스처 정확도, 미적 수준에서 우수한 성능을 보이며, 전반적 지각 품질 평가에서 기존 기준선 대비 90% 이상의 승률을 달성함을 입증했습니다. 이러한 3D 품질, 현실 정합성, 확장성, 컴퓨터 그래픽스 파이프라인과의 원활한 호환성 결합은 RAISECity가 몰입형 미디어, 구현형 인공지능, 세계 모델 응용 분야에 유망한 기반 기술이 되도록 합니다.
English
City-scale 3D generation is of great importance for the development of embodied intelligence and world models. Existing methods, however, face significant challenges regarding quality, fidelity, and scalability in 3D world generation. Thus, we propose RAISECity, a Reality-Aligned Intelligent Synthesis Engine that creates detailed, City-scale 3D worlds. We introduce an agentic framework that leverages diverse multimodal foundation tools to acquire real-world knowledge, maintain robust intermediate representations, and construct complex 3D scenes. This agentic design, featuring dynamic data processing, iterative self-reflection and refinement, and the invocation of advanced multimodal tools, minimizes cumulative errors and enhances overall performance. Extensive quantitative experiments and qualitative analyses validate the superior performance of RAISECity in real-world alignment, shape precision, texture fidelity, and aesthetics level, achieving over a 90% win-rate against existing baselines for overall perceptual quality. This combination of 3D quality, reality alignment, scalability, and seamless compatibility with computer graphics pipelines makes RAISECity a promising foundation for applications in immersive media, embodied intelligence, and world models.
PDF12December 1, 2025