ChatPaper.aiChatPaper

ImmerseGen : Génération immersive guidée par des agents avec des proxys à textures alpha

ImmerseGen: Agent-Guided Immersive World Generation with Alpha-Textured Proxies

June 17, 2025
Auteurs: Jinyan Yuan, Bangbang Yang, Keke Wang, Panwang Pan, Lin Ma, Xuehai Zhang, Xiao Liu, Zhaopeng Cui, Yuewen Ma
cs.AI

Résumé

La création automatique de scènes 3D pour une présence immersive en réalité virtuelle (VR) constitue un axe de recherche majeur depuis plusieurs décennies. Cependant, les méthodes existantes reposent souvent soit sur une modélisation de maillages à haute densité de polygones suivie d'une simplification a posteriori, soit sur l'utilisation massive de Gaussiennes 3D, ce qui entraîne un pipeline complexe ou un réalisme visuel limité. Dans cet article, nous démontrons qu'une modélisation aussi exhaustive n'est pas nécessaire pour parvenir à une expérience immersive convaincante. Nous présentons ImmerseGen, un nouveau cadre guidé par des agents pour la modélisation compacte et photoréaliste de mondes virtuels. ImmerseGen représente les scènes comme des compositions hiérarchiques de proxies géométriques légers, tels que des terrains simplifiés et des maillages de type billboard, et génère un aspect photoréaliste en synthétisant des textures RGBA sur ces proxies. Plus précisément, nous proposons un texturage conditionné par le terrain pour la synthèse d'un monde de base centré sur l'utilisateur, ainsi qu'un texturage d'actifs RGBA pour les éléments de premier plan et d'arrière-plan. Cette reformulation offre plusieurs avantages : (i) elle simplifie la modélisation en permettant aux agents de guider les modèles génératifs pour produire des textures cohérentes qui s'intègrent harmonieusement à la scène ; (ii) elle évite la création et la réduction complexes de géométries en synthétisant directement des textures photoréalistes sur les proxies, préservant ainsi la qualité visuelle sans dégradation ; (iii) elle permet des représentations compactes adaptées au rendu en temps réel sur des casques VR mobiles. Pour automatiser la création de scènes à partir de prompts textuels, nous introduisons des agents de modélisation basés sur des modèles de langage visuel (VLM), renforcés par une analyse sémantique basée sur une grille pour améliorer le raisonnement spatial et le placement précis des actifs. ImmerseGen enrichit en outre les scènes avec des effets dynamiques et des ambiances sonores pour soutenir une immersion multisensorielle. Les expériences sur la génération de scènes et les démonstrations en VR en direct montrent qu'ImmerseGen atteint un photoréalisme, une cohérence spatiale et une efficacité de rendu supérieurs par rapport aux méthodes précédentes. Page web du projet : https://immersegen.github.io.
English
Automatic creation of 3D scenes for immersive VR presence has been a significant research focus for decades. However, existing methods often rely on either high-poly mesh modeling with post-hoc simplification or massive 3D Gaussians, resulting in a complex pipeline or limited visual realism. In this paper, we demonstrate that such exhaustive modeling is unnecessary for achieving compelling immersive experience. We introduce ImmerseGen, a novel agent-guided framework for compact and photorealistic world modeling. ImmerseGen represents scenes as hierarchical compositions of lightweight geometric proxies, i.e., simplified terrain and billboard meshes, and generates photorealistic appearance by synthesizing RGBA textures onto these proxies. Specifically, we propose terrain-conditioned texturing for user-centric base world synthesis, and RGBA asset texturing for midground and foreground scenery. This reformulation offers several advantages: (i) it simplifies modeling by enabling agents to guide generative models in producing coherent textures that integrate seamlessly with the scene; (ii) it bypasses complex geometry creation and decimation by directly synthesizing photorealistic textures on proxies, preserving visual quality without degradation; (iii) it enables compact representations suitable for real-time rendering on mobile VR headsets. To automate scene creation from text prompts, we introduce VLM-based modeling agents enhanced with semantic grid-based analysis for improved spatial reasoning and accurate asset placement. ImmerseGen further enriches scenes with dynamic effects and ambient audio to support multisensory immersion. Experiments on scene generation and live VR showcases demonstrate that ImmerseGen achieves superior photorealism, spatial coherence and rendering efficiency compared to prior methods. Project webpage: https://immersegen.github.io.
PDF52June 19, 2025