ChatPaper.aiChatPaper

ImmerseGen: Agentengesteuerte immersive Welterzeugung mit Alpha-texturierten Proxies

ImmerseGen: Agent-Guided Immersive World Generation with Alpha-Textured Proxies

June 17, 2025
Autoren: Jinyan Yuan, Bangbang Yang, Keke Wang, Panwang Pan, Lin Ma, Xuehai Zhang, Xiao Liu, Zhaopeng Cui, Yuewen Ma
cs.AI

Zusammenfassung

Die automatische Erstellung von 3D-Szenen für immersive VR-Präsenz ist seit Jahrzehnten ein bedeutender Forschungsschwerpunkt. Bisherige Methoden basieren jedoch oft entweder auf der Modellierung von hochpolygonalen Netzen mit nachträglicher Vereinfachung oder auf massiven 3D-Gaußschen, was zu komplexen Pipelines oder begrenzter visueller Realität führt. In diesem Artikel zeigen wir, dass eine derart umfassende Modellierung nicht notwendig ist, um ein überzeugendes immersives Erlebnis zu erreichen. Wir stellen ImmerseGen vor, ein neuartiges, agentengesteuertes Framework für kompakte und fotorealistische Weltmodellierung. ImmerseGen repräsentiert Szenen als hierarchische Kompositionen von leichtgewichtigen geometrischen Proxies, d.h. vereinfachten Gelände- und Billboard-Netzen, und erzeugt fotorealistische Darstellungen durch die Synthese von RGBA-Texturen auf diesen Proxies. Konkret schlagen wir eine geländebedingte Texturierung für die benutzerzentrierte Basissynthese der Welt sowie RGBA-Asset-Texturierung für Mittel- und Vordergrundszenarien vor. Diese Neuformulierung bietet mehrere Vorteile: (i) Sie vereinfacht die Modellierung, indem sie Agenten ermöglicht, generative Modelle bei der Erzeugung kohärenter Texturen zu steuern, die nahtlos in die Szene integriert werden; (ii) sie umgeht die komplexe Geometrieerstellung und -reduzierung, indem sie direkt fotorealistische Texturen auf Proxies synthetisiert und dabei die visuelle Qualität ohne Verschlechterung bewahrt; (iii) sie ermöglicht kompakte Darstellungen, die sich für Echtzeit-Rendering auf mobilen VR-Headsets eignen. Um die Szenenerstellung aus Textanweisungen zu automatisieren, führen wir VLM-basierte Modellierungsagenten ein, die durch semantische rasterbasierte Analysen verbessert werden, um räumliches Denken und präzise Asset-Platzierung zu verbessern. ImmerseGen bereichert Szenen weiterhin mit dynamischen Effekten und Ambient-Audio, um multisensorische Immersion zu unterstützen. Experimente zur Szenengenerierung und Live-VR-Demonstrationen zeigen, dass ImmerseGen im Vergleich zu früheren Methoden eine überlegene Fotorealität, räumliche Kohärenz und Rendering-Effizienz erreicht. Projektwebseite: https://immersegen.github.io.
English
Automatic creation of 3D scenes for immersive VR presence has been a significant research focus for decades. However, existing methods often rely on either high-poly mesh modeling with post-hoc simplification or massive 3D Gaussians, resulting in a complex pipeline or limited visual realism. In this paper, we demonstrate that such exhaustive modeling is unnecessary for achieving compelling immersive experience. We introduce ImmerseGen, a novel agent-guided framework for compact and photorealistic world modeling. ImmerseGen represents scenes as hierarchical compositions of lightweight geometric proxies, i.e., simplified terrain and billboard meshes, and generates photorealistic appearance by synthesizing RGBA textures onto these proxies. Specifically, we propose terrain-conditioned texturing for user-centric base world synthesis, and RGBA asset texturing for midground and foreground scenery. This reformulation offers several advantages: (i) it simplifies modeling by enabling agents to guide generative models in producing coherent textures that integrate seamlessly with the scene; (ii) it bypasses complex geometry creation and decimation by directly synthesizing photorealistic textures on proxies, preserving visual quality without degradation; (iii) it enables compact representations suitable for real-time rendering on mobile VR headsets. To automate scene creation from text prompts, we introduce VLM-based modeling agents enhanced with semantic grid-based analysis for improved spatial reasoning and accurate asset placement. ImmerseGen further enriches scenes with dynamic effects and ambient audio to support multisensory immersion. Experiments on scene generation and live VR showcases demonstrate that ImmerseGen achieves superior photorealism, spatial coherence and rendering efficiency compared to prior methods. Project webpage: https://immersegen.github.io.
PDF52June 19, 2025