ImmerseGen: Generación Inmersiva de Mundos Guiada por Agentes con Proxies de Texturas Alfa
ImmerseGen: Agent-Guided Immersive World Generation with Alpha-Textured Proxies
June 17, 2025
Autores: Jinyan Yuan, Bangbang Yang, Keke Wang, Panwang Pan, Lin Ma, Xuehai Zhang, Xiao Liu, Zhaopeng Cui, Yuewen Ma
cs.AI
Resumen
La creación automática de escenas 3D para la presencia inmersiva en realidad virtual (VR) ha sido un enfoque de investigación significativo durante décadas. Sin embargo, los métodos existentes suelen depender del modelado de mallas de alta poligonización con simplificación posterior o de grandes cantidades de gaussianos 3D, lo que resulta en un flujo de trabajo complejo o en un realismo visual limitado. En este artículo, demostramos que dicho modelado exhaustivo no es necesario para lograr una experiencia inmersiva convincente. Presentamos ImmerseGen, un marco novedoso guiado por agentes para el modelado compacto y fotorrealista de mundos. ImmerseGen representa las escenas como composiciones jerárquicas de proxies geométricos ligeros, es decir, terrenos simplificados y mallas de billboards, y genera apariencias fotorrealistas sintetizando texturas RGBA sobre estos proxies. Específicamente, proponemos texturizado condicionado por el terreno para la síntesis de mundos base centrados en el usuario, y texturizado de activos RGBA para la escenografía de medio y primer plano. Esta reformulación ofrece varias ventajas: (i) simplifica el modelado al permitir que los agentes guíen a los modelos generativos en la producción de texturas coherentes que se integran perfectamente con la escena; (ii) evita la creación y decimación de geometría compleja al sintetizar directamente texturas fotorrealistas sobre los proxies, preservando la calidad visual sin degradación; (iii) permite representaciones compactas adecuadas para la renderización en tiempo real en dispositivos móviles de VR. Para automatizar la creación de escenas a partir de indicaciones de texto, introducimos agentes de modelado basados en VLM mejorados con análisis semántico basado en cuadrículas para un razonamiento espacial mejorado y una colocación precisa de activos. ImmerseGen enriquece aún más las escenas con efectos dinámicos y audio ambiental para apoyar la inmersión multisensorial. Los experimentos en generación de escenas y demostraciones en vivo de VR muestran que ImmerseGen logra un fotorrealismo superior, coherencia espacial y eficiencia de renderización en comparación con métodos anteriores. Página del proyecto: https://immersegen.github.io.
English
Automatic creation of 3D scenes for immersive VR presence has been a
significant research focus for decades. However, existing methods often rely on
either high-poly mesh modeling with post-hoc simplification or massive 3D
Gaussians, resulting in a complex pipeline or limited visual realism. In this
paper, we demonstrate that such exhaustive modeling is unnecessary for
achieving compelling immersive experience. We introduce ImmerseGen, a novel
agent-guided framework for compact and photorealistic world modeling.
ImmerseGen represents scenes as hierarchical compositions of lightweight
geometric proxies, i.e., simplified terrain and billboard meshes, and generates
photorealistic appearance by synthesizing RGBA textures onto these proxies.
Specifically, we propose terrain-conditioned texturing for user-centric base
world synthesis, and RGBA asset texturing for midground and foreground scenery.
This reformulation offers several advantages: (i) it simplifies modeling by
enabling agents to guide generative models in producing coherent textures that
integrate seamlessly with the scene; (ii) it bypasses complex geometry creation
and decimation by directly synthesizing photorealistic textures on proxies,
preserving visual quality without degradation; (iii) it enables compact
representations suitable for real-time rendering on mobile VR headsets. To
automate scene creation from text prompts, we introduce VLM-based modeling
agents enhanced with semantic grid-based analysis for improved spatial
reasoning and accurate asset placement. ImmerseGen further enriches scenes with
dynamic effects and ambient audio to support multisensory immersion.
Experiments on scene generation and live VR showcases demonstrate that
ImmerseGen achieves superior photorealism, spatial coherence and rendering
efficiency compared to prior methods. Project webpage:
https://immersegen.github.io.