ImmerseGen: Generazione di Mondi Immersivi Guidata da Agenti con Proxy a Texture Alfa
ImmerseGen: Agent-Guided Immersive World Generation with Alpha-Textured Proxies
June 17, 2025
Autori: Jinyan Yuan, Bangbang Yang, Keke Wang, Panwang Pan, Lin Ma, Xuehai Zhang, Xiao Liu, Zhaopeng Cui, Yuewen Ma
cs.AI
Abstract
La creazione automatica di scene 3D per una presenza immersiva nella realtà virtuale (VR) è stata un importante focus di ricerca per decenni. Tuttavia, i metodi esistenti si basano spesso sulla modellazione di mesh ad alta poligonosità con una successiva semplificazione o su massicci Gaussiani 3D, risultando in una pipeline complessa o in un realismo visivo limitato. In questo articolo, dimostriamo che una modellazione così esaustiva non è necessaria per ottenere un'esperienza immersiva convincente. Introduciamo ImmerseGen, un nuovo framework guidato da agenti per la modellazione di mondi compatti e fotorealistici. ImmerseGen rappresenta le scene come composizioni gerarchiche di proxy geometrici leggeri, ovvero terreni semplificati e mesh a billboard, e genera un aspetto fotorealistico sintetizzando texture RGBA su questi proxy. Nello specifico, proponiamo la texture condizionata dal terreno per la sintesi di un mondo di base centrato sull'utente e la texture RGBA per gli asset dello scenario in primo piano e intermedio. Questa riformulazione offre diversi vantaggi: (i) semplifica la modellazione consentendo agli agenti di guidare i modelli generativi nella produzione di texture coerenti che si integrano perfettamente con la scena; (ii) evita la creazione e la decimazione di geometrie complesse sintetizzando direttamente texture fotorealistiche sui proxy, preservando la qualità visiva senza degradazione; (iii) consente rappresentazioni compatte adatte al rendering in tempo reale su visori VR mobili. Per automatizzare la creazione di scene da prompt testuali, introduciamo agenti di modellazione basati su VLM (Vision-Language Models) potenziati con analisi semantica basata su griglia per un ragionamento spaziale migliorato e un posizionamento accurato degli asset. ImmerseGen arricchisce ulteriormente le scene con effetti dinamici e audio ambientale per supportare un'immersione multisensoriale. Esperimenti sulla generazione di scene e dimostrazioni live in VR mostrano che ImmerseGen raggiunge un fotorealismo superiore, coerenza spaziale ed efficienza di rendering rispetto ai metodi precedenti. Pagina web del progetto: https://immersegen.github.io.
English
Automatic creation of 3D scenes for immersive VR presence has been a
significant research focus for decades. However, existing methods often rely on
either high-poly mesh modeling with post-hoc simplification or massive 3D
Gaussians, resulting in a complex pipeline or limited visual realism. In this
paper, we demonstrate that such exhaustive modeling is unnecessary for
achieving compelling immersive experience. We introduce ImmerseGen, a novel
agent-guided framework for compact and photorealistic world modeling.
ImmerseGen represents scenes as hierarchical compositions of lightweight
geometric proxies, i.e., simplified terrain and billboard meshes, and generates
photorealistic appearance by synthesizing RGBA textures onto these proxies.
Specifically, we propose terrain-conditioned texturing for user-centric base
world synthesis, and RGBA asset texturing for midground and foreground scenery.
This reformulation offers several advantages: (i) it simplifies modeling by
enabling agents to guide generative models in producing coherent textures that
integrate seamlessly with the scene; (ii) it bypasses complex geometry creation
and decimation by directly synthesizing photorealistic textures on proxies,
preserving visual quality without degradation; (iii) it enables compact
representations suitable for real-time rendering on mobile VR headsets. To
automate scene creation from text prompts, we introduce VLM-based modeling
agents enhanced with semantic grid-based analysis for improved spatial
reasoning and accurate asset placement. ImmerseGen further enriches scenes with
dynamic effects and ambient audio to support multisensory immersion.
Experiments on scene generation and live VR showcases demonstrate that
ImmerseGen achieves superior photorealism, spatial coherence and rendering
efficiency compared to prior methods. Project webpage:
https://immersegen.github.io.