RAISECity:都市規模における現実整合型3次元世界生成のためのマルチモーダルエージェントフレームワーク
RAISECity: A Multimodal Agent Framework for Reality-Aligned 3D World Generation at City-Scale
November 22, 2025
著者: Shengyuan Wang, Zhiheng Zheng, Yu Shang, Lixuan He, Yangcheng Yu, Fan Hangyu, Jie Feng, Qingmin Liao, Yong Li
cs.AI
要旨
都市スケールの3D生成は、エンボディードAIとワールドモデルの発展において極めて重要である。しかし既存手法は、3Dワールド生成における品質、忠実度、拡張性に関して重大な課題に直面している。そこで我々は、詳細な都市スケールの3Dワールドを生成する、現実世界に整合した知的合成エンジン「RAISECity」を提案する。多様なマルチモーダル基盤ツールを活用して実世界の知識を獲得し、堅牢な中間表現を維持し、複雑な3Dシーンを構築するエージェント型フレームワークを導入する。動的データ処理、反復的な自己反省と精緻化、高度なマルチモーダルツールの呼び出しを特徴とするこのエージェント設計は、累積誤差を最小化し、全体的な性能を向上させる。大規模な定量的実験と定性的分析により、RAISECityが実世界との整合性、形状精度、テクスチャの忠実度、美的品質において優れた性能を発揮し、全体的な知覚品質で既存ベースラインに対して90%以上の勝率を達成することを実証した。3D品質、現実整合性、拡張性、コンピュータグラフィックスパイプラインとのシームレスな互換性を兼ね備えたRAISECityは、没入型メディア、エンボディードAI、ワールドモデルへの応用における有望な基盤技術となる。
English
City-scale 3D generation is of great importance for the development of embodied intelligence and world models. Existing methods, however, face significant challenges regarding quality, fidelity, and scalability in 3D world generation. Thus, we propose RAISECity, a Reality-Aligned Intelligent Synthesis Engine that creates detailed, City-scale 3D worlds. We introduce an agentic framework that leverages diverse multimodal foundation tools to acquire real-world knowledge, maintain robust intermediate representations, and construct complex 3D scenes. This agentic design, featuring dynamic data processing, iterative self-reflection and refinement, and the invocation of advanced multimodal tools, minimizes cumulative errors and enhances overall performance. Extensive quantitative experiments and qualitative analyses validate the superior performance of RAISECity in real-world alignment, shape precision, texture fidelity, and aesthetics level, achieving over a 90% win-rate against existing baselines for overall perceptual quality. This combination of 3D quality, reality alignment, scalability, and seamless compatibility with computer graphics pipelines makes RAISECity a promising foundation for applications in immersive media, embodied intelligence, and world models.