ImmerseGen: 알파 텍스처 프록시를 활용한 에이전트 기반 몰입형 세계 생성
ImmerseGen: Agent-Guided Immersive World Generation with Alpha-Textured Proxies
June 17, 2025
저자: Jinyan Yuan, Bangbang Yang, Keke Wang, Panwang Pan, Lin Ma, Xuehai Zhang, Xiao Liu, Zhaopeng Cui, Yuewen Ma
cs.AI
초록
몰입형 VR 환경을 위한 3D 장면의 자동 생성은 수십 년 동안 중요한 연구 주제로 주목받아 왔다. 그러나 기존 방법들은 고다각형 메시 모델링과 사후 단순화 작업에 의존하거나, 방대한 3D 가우시안을 활용함으로써 복잡한 파이프라인 또는 제한된 시각적 현실감을 초래하는 경우가 많았다. 본 논문에서는 이러한 과도한 모델링이 몰입형 경험을 구현하는 데 불필요함을 입증한다. 우리는 간결하면서도 사실적인 세계 모델링을 위한 새로운 에이전트 기반 프레임워크인 ImmerseGen을 소개한다. ImmerseGen은 경량의 기하학적 프록시, 즉 단순화된 지형 및 빌보드 메시의 계층적 조합으로 장면을 표현하며, 이러한 프록시에 RGBA 텍스처를 합성함으로써 사실적인 외관을 생성한다. 구체적으로, 사용자 중심의 기본 세계 합성을 위한 지형 기반 텍스처링과 중경 및 전경 장면을 위한 RGBA 자산 텍스처링을 제안한다. 이러한 재구성은 다음과 같은 장점을 제공한다: (i) 에이전트가 생성 모델을 안내하여 장면과 자연스럽게 통합되는 일관된 텍스처를 생성하도록 함으로써 모델링을 단순화한다; (ii) 복잡한 기하학적 생성 및 단순화 과정을 우회하고 프록시에 직접 사실적인 텍스처를 합성함으로써 시각적 품질의 저하 없이 보존한다; (iii) 모바일 VR 헤드셋에서 실시간 렌더링에 적합한 간결한 표현을 가능하게 한다. 텍스트 프롬프트로부터 장면 생성을 자동화하기 위해, 우리는 공간 추론 및 정확한 자산 배치를 개선하기 위해 의미론적 그리드 기반 분석으로 강화된 VLM 기반 모델링 에이전트를 도입한다. ImmerseGen은 또한 다감각적 몰입을 지원하기 위해 동적 효과와 환경 음향을 장면에 추가한다. 장면 생성 및 실시간 VR 데모 실험을 통해 ImmerseGen이 기존 방법 대비 우수한 사실감, 공간적 일관성 및 렌더링 효율성을 달성함을 입증한다. 프로젝트 웹페이지: https://immersegen.github.io.
English
Automatic creation of 3D scenes for immersive VR presence has been a
significant research focus for decades. However, existing methods often rely on
either high-poly mesh modeling with post-hoc simplification or massive 3D
Gaussians, resulting in a complex pipeline or limited visual realism. In this
paper, we demonstrate that such exhaustive modeling is unnecessary for
achieving compelling immersive experience. We introduce ImmerseGen, a novel
agent-guided framework for compact and photorealistic world modeling.
ImmerseGen represents scenes as hierarchical compositions of lightweight
geometric proxies, i.e., simplified terrain and billboard meshes, and generates
photorealistic appearance by synthesizing RGBA textures onto these proxies.
Specifically, we propose terrain-conditioned texturing for user-centric base
world synthesis, and RGBA asset texturing for midground and foreground scenery.
This reformulation offers several advantages: (i) it simplifies modeling by
enabling agents to guide generative models in producing coherent textures that
integrate seamlessly with the scene; (ii) it bypasses complex geometry creation
and decimation by directly synthesizing photorealistic textures on proxies,
preserving visual quality without degradation; (iii) it enables compact
representations suitable for real-time rendering on mobile VR headsets. To
automate scene creation from text prompts, we introduce VLM-based modeling
agents enhanced with semantic grid-based analysis for improved spatial
reasoning and accurate asset placement. ImmerseGen further enriches scenes with
dynamic effects and ambient audio to support multisensory immersion.
Experiments on scene generation and live VR showcases demonstrate that
ImmerseGen achieves superior photorealism, spatial coherence and rendering
efficiency compared to prior methods. Project webpage:
https://immersegen.github.io.