ChatPaper.aiChatPaper

ImmerseGen: Генерация иммерсивных миров с управлением агентами с использованием альфа-текстурированных прокси

ImmerseGen: Agent-Guided Immersive World Generation with Alpha-Textured Proxies

June 17, 2025
Авторы: Jinyan Yuan, Bangbang Yang, Keke Wang, Panwang Pan, Lin Ma, Xuehai Zhang, Xiao Liu, Zhaopeng Cui, Yuewen Ma
cs.AI

Аннотация

Автоматическое создание 3D-сцен для погружения в виртуальную реальность (VR) на протяжении десятилетий остается важным направлением исследований. Однако существующие методы часто полагаются либо на моделирование высокополигональных мешей с последующим упрощением, либо на использование массивных 3D-гауссовских моделей, что приводит к сложным процессам или ограниченной визуальной реалистичности. В данной работе мы показываем, что такие трудоемкие подходы не являются необходимыми для достижения убедительного погружения. Мы представляем ImmerseGen — новый фреймворк с управляемыми агентами для компактного и фотореалистичного моделирования миров. ImmerseGen представляет сцены как иерархические композиции из легковесных геометрических прокси, таких как упрощенные модели рельефа и билборды, и создает фотореалистичный внешний вид, синтезируя RGBA-текстуры на эти прокси. В частности, мы предлагаем текстурирование на основе рельефа для создания базового мира, ориентированного на пользователя, и текстурирование RGBA-активов для среднего и переднего плана. Такой подход имеет несколько преимуществ: (i) он упрощает моделирование, позволяя агентам направлять генеративные модели для создания согласованных текстур, которые органично интегрируются в сцену; (ii) он обходит сложное создание и упрощение геометрии, напрямую синтезируя фотореалистичные текстуры на прокси, сохраняя визуальное качество без ухудшения; (iii) он обеспечивает компактные представления, подходящие для рендеринга в реальном времени на мобильных VR-устройствах. Для автоматизации создания сцен на основе текстовых запросов мы вводим агентов моделирования на основе визуально-языковых моделей (VLM), улучшенных семантическим анализом на основе сетки для улучшения пространственного мышления и точного размещения объектов. ImmerseGen также обогащает сцены динамическими эффектами и окружающим звуком для поддержки мультисенсорного погружения. Эксперименты по генерации сцен и демонстрации в реальном времени в VR показывают, что ImmerseGen превосходит предыдущие методы по фотореалистичности, пространственной согласованности и эффективности рендеринга. Страница проекта: https://immersegen.github.io.
English
Automatic creation of 3D scenes for immersive VR presence has been a significant research focus for decades. However, existing methods often rely on either high-poly mesh modeling with post-hoc simplification or massive 3D Gaussians, resulting in a complex pipeline or limited visual realism. In this paper, we demonstrate that such exhaustive modeling is unnecessary for achieving compelling immersive experience. We introduce ImmerseGen, a novel agent-guided framework for compact and photorealistic world modeling. ImmerseGen represents scenes as hierarchical compositions of lightweight geometric proxies, i.e., simplified terrain and billboard meshes, and generates photorealistic appearance by synthesizing RGBA textures onto these proxies. Specifically, we propose terrain-conditioned texturing for user-centric base world synthesis, and RGBA asset texturing for midground and foreground scenery. This reformulation offers several advantages: (i) it simplifies modeling by enabling agents to guide generative models in producing coherent textures that integrate seamlessly with the scene; (ii) it bypasses complex geometry creation and decimation by directly synthesizing photorealistic textures on proxies, preserving visual quality without degradation; (iii) it enables compact representations suitable for real-time rendering on mobile VR headsets. To automate scene creation from text prompts, we introduce VLM-based modeling agents enhanced with semantic grid-based analysis for improved spatial reasoning and accurate asset placement. ImmerseGen further enriches scenes with dynamic effects and ambient audio to support multisensory immersion. Experiments on scene generation and live VR showcases demonstrate that ImmerseGen achieves superior photorealism, spatial coherence and rendering efficiency compared to prior methods. Project webpage: https://immersegen.github.io.
PDF52June 19, 2025