ChatPaper.aiChatPaper

Habitat-GS: 동적 가우시안 스플래팅을 활용한 고정밀 내비게이션 시뮬레이터

Habitat-GS: A High-Fidelity Navigation Simulator with Dynamic Gaussian Splatting

April 14, 2026
저자: Ziyuan Xia, Jingyi Xu, Chong Cui, Yuanhong Yu, Jiazhao Zhang, Qingsong Yan, Tao Ni, Junbo Chen, Xiaowei Zhou, Hujun Bao, Ruizhen Hu, Sida Peng
cs.AI

초록

구현화된 AI 에이전트의 학습은 시뮬레이션 환경의 시각적 정확도와 동적 인간 모델링 능력에 크게 의존합니다. 기존 시뮬레이터는 시각적 현실감이 제한된 메시 기반 래스터화에 의존하며, 동적 인간 아바타 지원이 가능한 경우에도 메시 표현에 국한되어 에이전트의 인간이 존재하는 실제 시나리오로의 일반화를 저해합니다. 본 논문에서는 Habitat-Sim에서 확장된 내비게이션 중심의 구현화 AI 시뮬레이터인 Habitat-GS를 제안합니다. 이 시스템은 3D Gaussian Splatting 장면 렌더링과 구동 가능한 가우시안 아바타를 통합하면서도 Habitat 생태계와의 완전한 호환성을 유지합니다. 우리의 시스템은 실시간 사진 수준의 사실적 렌더링을 위한 3DGS 렌더러를 구현하고 다양한 출처로부터 확장 가능한 3DGS 에셋 임포트를 지원합니다. 동적 인간 모델링을 위해, 우리는 각 아바타가 사진처럼 사실적인 시각적 개체이자 효과적인 내비게이션 장애물로 동시에 기능하도록 하는 가우시안 아바타 모듈을 도입하여 에이전트가 현실적인 환경에서 인간을 인지하는 행동을 학습할 수 있게 합니다. 목표 지점 내비게이션 실험 결과, 3DGS 장면에서 훈련된 에이전트는 더 강력한 교차 도메인 일반화 성능을 달성하며, 혼합 도메인 훈련이 가장 효과적인 전략임을 보여줍니다. 아바타 인지 내비게이션 평가를 통해 가우시안 아바타가 효과적인 인간 인지 내비게이션을 가능하게 함이 추가적으로 확인되었습니다. 마지막으로 성능 벤치마크는 다양한 장면 복잡도와 아바타 수에 걸친 시스템의 확장성을 입증합니다.
English
Training embodied AI agents depends critically on the visual fidelity of simulation environments and the ability to model dynamic humans. Current simulators rely on mesh-based rasterization with limited visual realism, and their support for dynamic human avatars, where available, is constrained to mesh representations, hindering agent generalization to human-populated real-world scenarios. We present Habitat-GS, a navigation-centric embodied AI simulator extended from Habitat-Sim that integrates 3D Gaussian Splatting scene rendering and drivable gaussian avatars while maintaining full compatibility with the Habitat ecosystem. Our system implements a 3DGS renderer for real-time photorealistic rendering and supports scalable 3DGS asset import from diverse sources. For dynamic human modeling, we introduce a gaussian avatar module that enables each avatar to simultaneously serve as a photorealistic visual entity and an effective navigation obstacle, allowing agents to learn human-aware behaviors in realistic settings. Experiments on point-goal navigation demonstrate that agents trained on 3DGS scenes achieve stronger cross-domain generalization, with mixed-domain training being the most effective strategy. Evaluations on avatar-aware navigation further confirm that gaussian avatars enable effective human-aware navigation. Finally, performance benchmarks validate the system's scalability across varying scene complexity and avatar counts.
PDF121April 16, 2026