ChatPaper.aiChatPaper

Habitat-GS:動的ガウススプラッティングを備えた高精細ナビゲーションシミュレータ

Habitat-GS: A High-Fidelity Navigation Simulator with Dynamic Gaussian Splatting

April 14, 2026
著者: Ziyuan Xia, Jingyi Xu, Chong Cui, Yuanhong Yu, Jiazhao Zhang, Qingsong Yan, Tao Ni, Junbo Chen, Xiaowei Zhou, Hujun Bao, Ruizhen Hu, Sida Peng
cs.AI

要旨

エンボディAIエージェントの訓練は、シミュレーション環境の視覚的忠実度と動的な人間のモデリング能力に大きく依存している。現在のシミュレータは、視覚的真实性が限定的なメッシュベースのラスタライゼーションに依存しており、動的な人間のアバターのサポート(利用可能な場合)もメッシュ表現に制限されている。これにより、人間が存在する実世界シナリオへのエージェントの汎化が妨げられている。本研究では、Habitat-Simから拡張した、ナビゲーション中心のエンボディAIシミュレータであるHabitat-GSを提案する。本システムは3D Gaussian Splattingシーン描画と駆動可能なガウシアンアバターを統合しつつ、Habitatエコシステムとの完全な互換性を維持する。我々のシステムは、リアルタイムの写実的描画のための3DGSレンダラを実装し、様々なソースからのスケーラブルな3DGSアセットインポートをサポートする。動的な人間モデリングにおいては、各アバターが写実的な視覚的実体として機能すると同時に効果的なナビゲーション障害物としても機能するガウシアンアバターモジュールを導入し、エージェントが現実的な設定下で人間を意識した行動を学習することを可能にする。ポイントゴールナビゲーションにおける実験により、3DGSシーンで訓練されたエージェントは、より強力なクロスドメイン汎化性能を達成し、混合ドメイン訓練が最も効果的な戦略であることが示された。アバターを意識したナビゲーションの評価では、ガウシアンアバターが効果的な人間認識ナビゲーションを可能にすることがさらに確認された。最後に、パフォーマンスベンチマークにより、様々なシーン複雑度とアバター数にわたるシステムのスケーラビリティが検証された。
English
Training embodied AI agents depends critically on the visual fidelity of simulation environments and the ability to model dynamic humans. Current simulators rely on mesh-based rasterization with limited visual realism, and their support for dynamic human avatars, where available, is constrained to mesh representations, hindering agent generalization to human-populated real-world scenarios. We present Habitat-GS, a navigation-centric embodied AI simulator extended from Habitat-Sim that integrates 3D Gaussian Splatting scene rendering and drivable gaussian avatars while maintaining full compatibility with the Habitat ecosystem. Our system implements a 3DGS renderer for real-time photorealistic rendering and supports scalable 3DGS asset import from diverse sources. For dynamic human modeling, we introduce a gaussian avatar module that enables each avatar to simultaneously serve as a photorealistic visual entity and an effective navigation obstacle, allowing agents to learn human-aware behaviors in realistic settings. Experiments on point-goal navigation demonstrate that agents trained on 3DGS scenes achieve stronger cross-domain generalization, with mixed-domain training being the most effective strategy. Evaluations on avatar-aware navigation further confirm that gaussian avatars enable effective human-aware navigation. Finally, performance benchmarks validate the system's scalability across varying scene complexity and avatar counts.
PDF121April 16, 2026