ImmerseGen: Geração de Mundos Imersivos Orientada por Agentes com Proxies de Textura Alfa
ImmerseGen: Agent-Guided Immersive World Generation with Alpha-Textured Proxies
June 17, 2025
Autores: Jinyan Yuan, Bangbang Yang, Keke Wang, Panwang Pan, Lin Ma, Xuehai Zhang, Xiao Liu, Zhaopeng Cui, Yuewen Ma
cs.AI
Resumo
A criação automática de cenas 3D para presença imersiva em realidade virtual (VR) tem sido um foco significativo de pesquisa por décadas. No entanto, os métodos existentes frequentemente dependem de modelagem de malhas de alta complexidade com simplificação posterior ou de grandes quantidades de Gaussianas 3D, resultando em um pipeline complexo ou em realismo visual limitado. Neste artigo, demonstramos que tal modelagem exaustiva é desnecessária para alcançar uma experiência imersiva convincente. Apresentamos o ImmerseGen, uma nova estrutura guiada por agentes para modelagem de mundos compactos e fotorrealistas. O ImmerseGen representa cenas como composições hierárquicas de proxies geométricos leves, ou seja, malhas simplificadas de terreno e billboards, e gera aparência fotorrealista sintetizando texturas RGBA nesses proxies. Especificamente, propomos texturização condicionada ao terreno para síntese de mundo base centrada no usuário, e texturização de ativos RGBA para cenários de meio e primeiro plano. Essa reformulação oferece várias vantagens: (i) simplifica a modelagem ao permitir que agentes guiem modelos generativos na produção de texturas coerentes que se integram perfeitamente à cena; (ii) contorna a criação e decimação de geometria complexa ao sintetizar diretamente texturas fotorrealistas em proxies, preservando a qualidade visual sem degradação; (iii) permite representações compactas adequadas para renderização em tempo real em headsets de VR móveis. Para automatizar a criação de cenas a partir de prompts de texto, introduzimos agentes de modelagem baseados em VLM (Vision-Language Models) aprimorados com análise semântica baseada em grade para melhorar o raciocínio espacial e o posicionamento preciso de ativos. O ImmerseGen ainda enriquece as cenas com efeitos dinâmicos e áudio ambiente para suportar imersão multissensorial. Experimentos em geração de cenas e demonstrações ao vivo em VR mostram que o ImmerseGen alcança fotorrealismo superior, coerência espacial e eficiência de renderização em comparação com métodos anteriores. Página do projeto: https://immersegen.github.io.
English
Automatic creation of 3D scenes for immersive VR presence has been a
significant research focus for decades. However, existing methods often rely on
either high-poly mesh modeling with post-hoc simplification or massive 3D
Gaussians, resulting in a complex pipeline or limited visual realism. In this
paper, we demonstrate that such exhaustive modeling is unnecessary for
achieving compelling immersive experience. We introduce ImmerseGen, a novel
agent-guided framework for compact and photorealistic world modeling.
ImmerseGen represents scenes as hierarchical compositions of lightweight
geometric proxies, i.e., simplified terrain and billboard meshes, and generates
photorealistic appearance by synthesizing RGBA textures onto these proxies.
Specifically, we propose terrain-conditioned texturing for user-centric base
world synthesis, and RGBA asset texturing for midground and foreground scenery.
This reformulation offers several advantages: (i) it simplifies modeling by
enabling agents to guide generative models in producing coherent textures that
integrate seamlessly with the scene; (ii) it bypasses complex geometry creation
and decimation by directly synthesizing photorealistic textures on proxies,
preserving visual quality without degradation; (iii) it enables compact
representations suitable for real-time rendering on mobile VR headsets. To
automate scene creation from text prompts, we introduce VLM-based modeling
agents enhanced with semantic grid-based analysis for improved spatial
reasoning and accurate asset placement. ImmerseGen further enriches scenes with
dynamic effects and ambient audio to support multisensory immersion.
Experiments on scene generation and live VR showcases demonstrate that
ImmerseGen achieves superior photorealism, spatial coherence and rendering
efficiency compared to prior methods. Project webpage:
https://immersegen.github.io.