ImmerseGen: Agent-gestuurde generatie van immersieve werelden met alfa-getextureerde proxies
ImmerseGen: Agent-Guided Immersive World Generation with Alpha-Textured Proxies
June 17, 2025
Auteurs: Jinyan Yuan, Bangbang Yang, Keke Wang, Panwang Pan, Lin Ma, Xuehai Zhang, Xiao Liu, Zhaopeng Cui, Yuewen Ma
cs.AI
Samenvatting
Het automatisch creëren van 3D-scènes voor een immersieve VR-ervaring is al decennia lang een belangrijk onderzoeksgebied. Bestaande methoden zijn echter vaak gebaseerd op het modelleren van hoogpolygonale meshes met achteraf vereenvoudiging of op massieve 3D-Gaussiaanse modellen, wat resulteert in een complexe pijplijn of beperkte visuele realiteit. In dit artikel tonen we aan dat dergelijke uitgebreide modellering niet nodig is om een overtuigende immersieve ervaring te bereiken. We introduceren ImmerseGen, een nieuw agent-gestuurd framework voor compacte en fotorealistische wereldmodellering. ImmerseGen representeert scènes als hiërarchische composities van lichtgewicht geometrische proxies, zoals vereenvoudigde terrein- en billboard-meshes, en genereert een fotorealistisch uiterlijk door RGBA-texturen op deze proxies te synthetiseren. Specifiek stellen we terrein-geconditioneerde texturering voor voor gebruikersgerichte basiswereldsynthese, en RGBA-assettexturering voor midden- en voorgrondscènes. Deze herformulering biedt verschillende voordelen: (i) het vereenvoudigt modellering door agents in staat te stellen generatieve modellen te begeleiden bij het produceren van samenhangende texturen die naadloos in de scène integreren; (ii) het omzeilt het creëren en reduceren van complexe geometrie door direct fotorealistische texturen op proxies te synthetiseren, waardoor de visuele kwaliteit behouden blijft zonder degradatie; (iii) het maakt compacte representaties mogelijk die geschikt zijn voor real-time rendering op mobiele VR-headsets. Om scènecreatie vanuit tekstprompts te automatiseren, introduceren we VLM-gebaseerde modelleringsagents die zijn versterkt met semantische grid-gebaseerde analyse voor verbeterd ruimtelijk redeneren en nauwkeurige plaatsing van assets. ImmerseGen verrijkt scènes verder met dynamische effecten en omgevingsgeluid om multisensorische immersie te ondersteunen. Experimenten met scènegeneratie en live VR-demonstraties tonen aan dat ImmerseGen superieure fotorealiteit, ruimtelijke samenhang en renderingefficiëntie bereikt in vergelijking met eerdere methoden. Projectwebpagina: https://immersegen.github.io.
English
Automatic creation of 3D scenes for immersive VR presence has been a
significant research focus for decades. However, existing methods often rely on
either high-poly mesh modeling with post-hoc simplification or massive 3D
Gaussians, resulting in a complex pipeline or limited visual realism. In this
paper, we demonstrate that such exhaustive modeling is unnecessary for
achieving compelling immersive experience. We introduce ImmerseGen, a novel
agent-guided framework for compact and photorealistic world modeling.
ImmerseGen represents scenes as hierarchical compositions of lightweight
geometric proxies, i.e., simplified terrain and billboard meshes, and generates
photorealistic appearance by synthesizing RGBA textures onto these proxies.
Specifically, we propose terrain-conditioned texturing for user-centric base
world synthesis, and RGBA asset texturing for midground and foreground scenery.
This reformulation offers several advantages: (i) it simplifies modeling by
enabling agents to guide generative models in producing coherent textures that
integrate seamlessly with the scene; (ii) it bypasses complex geometry creation
and decimation by directly synthesizing photorealistic textures on proxies,
preserving visual quality without degradation; (iii) it enables compact
representations suitable for real-time rendering on mobile VR headsets. To
automate scene creation from text prompts, we introduce VLM-based modeling
agents enhanced with semantic grid-based analysis for improved spatial
reasoning and accurate asset placement. ImmerseGen further enriches scenes with
dynamic effects and ambient audio to support multisensory immersion.
Experiments on scene generation and live VR showcases demonstrate that
ImmerseGen achieves superior photorealism, spatial coherence and rendering
efficiency compared to prior methods. Project webpage:
https://immersegen.github.io.