RAISECity: Мультимодальный агентный фреймворк для реалистичной генерации 3D-мира в масштабе города
RAISECity: A Multimodal Agent Framework for Reality-Aligned 3D World Generation at City-Scale
November 22, 2025
Авторы: Shengyuan Wang, Zhiheng Zheng, Yu Shang, Lixuan He, Yangcheng Yu, Fan Hangyu, Jie Feng, Qingmin Liao, Yong Li
cs.AI
Аннотация
Генерация городских 3D-моделей в масштабе целого города имеет ключевое значение для развития воплощенного интеллекта и моделей мира. Однако существующие методы сталкиваются со значительными трудностями в обеспечении качества, точности и масштабируемости при создании 3D-мира. В связи с этим мы предлагаем RAISECity — механизм интеллектуального синтеза, согласованный с реальностью, который создает детализированные 3D-миры городского масштаба. Мы представляем агентный фреймворк, использующий разнообразные мультимодальные базовые инструменты для получения знаний о реальном мире, поддержания надежных промежуточных представлений и построения сложных 3D-сцен. Данная агентная архитектура, характеризующаяся динамической обработкой данных, итеративной саморефлексией и улучшением, а также вызовом продвинутых мультимодальных инструментов, минимизирует накопление ошибок и повышает общую производительность. Многочисленные количественные эксперименты и качественный анализ подтверждают превосходство RAISECity по согласованности с реальностью, точности форм, достоверности текстур и эстетическому уровню, демонстрируя более чем 90% показатель выигрыша по сравнению с существующими базовыми методами по общей воспринимаемой качеству. Сочетание качества 3D-графики, соответствия реальности, масштабируемости и бесшовной совместимости с графическими конвейерами делает RAISECity перспективной основой для приложений в области иммерсивных медиа, воплощенного интеллекта и моделей мира.
English
City-scale 3D generation is of great importance for the development of embodied intelligence and world models. Existing methods, however, face significant challenges regarding quality, fidelity, and scalability in 3D world generation. Thus, we propose RAISECity, a Reality-Aligned Intelligent Synthesis Engine that creates detailed, City-scale 3D worlds. We introduce an agentic framework that leverages diverse multimodal foundation tools to acquire real-world knowledge, maintain robust intermediate representations, and construct complex 3D scenes. This agentic design, featuring dynamic data processing, iterative self-reflection and refinement, and the invocation of advanced multimodal tools, minimizes cumulative errors and enhances overall performance. Extensive quantitative experiments and qualitative analyses validate the superior performance of RAISECity in real-world alignment, shape precision, texture fidelity, and aesthetics level, achieving over a 90% win-rate against existing baselines for overall perceptual quality. This combination of 3D quality, reality alignment, scalability, and seamless compatibility with computer graphics pipelines makes RAISECity a promising foundation for applications in immersive media, embodied intelligence, and world models.