ImmerseGen: アルファテクスチャプロキシを用いたエージェント誘導型没入世界生成
ImmerseGen: Agent-Guided Immersive World Generation with Alpha-Textured Proxies
June 17, 2025
著者: Jinyan Yuan, Bangbang Yang, Keke Wang, Panwang Pan, Lin Ma, Xuehai Zhang, Xiao Liu, Zhaopeng Cui, Yuewen Ma
cs.AI
要旨
没入型VRプレゼンスのための3Dシーンの自動生成は、数十年にわたり重要な研究テーマとなってきた。しかし、既存の手法は、高ポリゴンメッシュモデリングと事後的な簡略化、または大規模な3Dガウシアンに依存することが多く、複雑なパイプラインや視覚的なリアリズムの制限を引き起こしている。本論文では、説得力のある没入体験を実現するために、このような網羅的なモデリングが不要であることを示す。我々は、コンパクトでフォトリアルなワールドモデリングのための新しいエージェントガイド型フレームワークであるImmerseGenを紹介する。ImmerseGenは、シーンを軽量な幾何学的プロキシ(すなわち、簡略化された地形とビルボードメッシュ)の階層的な構成として表現し、これらのプロキシ上にRGBAテクスチャを合成することでフォトリアルな外観を生成する。具体的には、ユーザー中心のベースワールド合成のための地形条件付きテクスチャリングと、中景および前景の風景のためのRGBAアセットテクスチャリングを提案する。この再定式化により、以下の利点が得られる:(i) エージェントが生成モデルをガイドしてシーンとシームレスに統合される一貫したテクスチャを生成することを可能にすることで、モデリングを簡素化する;(ii) 複雑なジオメトリの作成と削減を回避し、プロキシ上に直接フォトリアルなテクスチャを合成することで、視覚品質を劣化させることなく維持する;(iii) モバイルVRヘッドセットでのリアルタイムレンダリングに適したコンパクトな表現を可能にする。テキストプロンプトからのシーン作成を自動化するために、セマンティックグリッドベースの分析を強化したVLMベースのモデリングエージェントを導入し、空間推論と正確なアセット配置を改善する。ImmerseGenはさらに、動的効果と環境音をシーンに追加し、マルチセンサリ没入をサポートする。シーン生成とライブVR展示の実験により、ImmerseGenが従来の手法と比較して優れたフォトリアリズム、空間的一貫性、およびレンダリング効率を達成することが実証された。プロジェクトウェブページ: https://immersegen.github.io。
English
Automatic creation of 3D scenes for immersive VR presence has been a
significant research focus for decades. However, existing methods often rely on
either high-poly mesh modeling with post-hoc simplification or massive 3D
Gaussians, resulting in a complex pipeline or limited visual realism. In this
paper, we demonstrate that such exhaustive modeling is unnecessary for
achieving compelling immersive experience. We introduce ImmerseGen, a novel
agent-guided framework for compact and photorealistic world modeling.
ImmerseGen represents scenes as hierarchical compositions of lightweight
geometric proxies, i.e., simplified terrain and billboard meshes, and generates
photorealistic appearance by synthesizing RGBA textures onto these proxies.
Specifically, we propose terrain-conditioned texturing for user-centric base
world synthesis, and RGBA asset texturing for midground and foreground scenery.
This reformulation offers several advantages: (i) it simplifies modeling by
enabling agents to guide generative models in producing coherent textures that
integrate seamlessly with the scene; (ii) it bypasses complex geometry creation
and decimation by directly synthesizing photorealistic textures on proxies,
preserving visual quality without degradation; (iii) it enables compact
representations suitable for real-time rendering on mobile VR headsets. To
automate scene creation from text prompts, we introduce VLM-based modeling
agents enhanced with semantic grid-based analysis for improved spatial
reasoning and accurate asset placement. ImmerseGen further enriches scenes with
dynamic effects and ambient audio to support multisensory immersion.
Experiments on scene generation and live VR showcases demonstrate that
ImmerseGen achieves superior photorealism, spatial coherence and rendering
efficiency compared to prior methods. Project webpage:
https://immersegen.github.io.