Habitat-GS : Un simulateur de navigation haute fidélité avec splatting gaussien dynamique
Habitat-GS: A High-Fidelity Navigation Simulator with Dynamic Gaussian Splatting
April 14, 2026
Auteurs: Ziyuan Xia, Jingyi Xu, Chong Cui, Yuanhong Yu, Jiazhao Zhang, Qingsong Yan, Tao Ni, Junbo Chen, Xiaowei Zhou, Hujun Bao, Ruizhen Hu, Sida Peng
cs.AI
Résumé
L'entraînement des agents d'IA incarnés dépend de manière cruciale de la fidélité visuelle des environnements de simulation et de la capacité à modéliser des humains dynamiques. Les simulateurs actuels reposent sur la rastérisation basée sur des maillages, offrant un réalisme visuel limité, et leur prise en charge des avatars humains dynamiques, lorsqu'elle existe, est contrainte aux représentations par maillages, ce qui entrave la généralisation des agents aux scénarios réels peuplés d'humains. Nous présentons Habitat-GS, un simulateur d'IA incarné axé sur la navigation, étendu à partir d'Habitat-Sim, qui intègre le rendu de scènes par *3D Gaussian Splatting* (Projection de Gaussiennes 3D) et des avatars gaussiens pilotables tout en conservant une compatibilité totale avec l'écosystème Habitat. Notre système implémente un moteur de rendu 3DGS pour un rendu photoréaliste en temps réel et prend en charge l'importation scalable d'assets 3DGS provenant de sources diverses. Pour la modélisation d'humains dynamiques, nous introduisons un module d'avatar gaussien qui permet à chaque avatar de servir simultanément d'entité visuelle photoréaliste et d'obstacle de navigation efficace, permettant aux agents d'apprendre des comportements conscients de la présence humaine dans des environnements réalistes. Les expériences sur la navigation vers un point cible démontrent que les agents entraînés sur des scènes 3DGS atteignent une meilleure généralisation inter-domaines, l'entraînement en domaine mixte s'avérant la stratégie la plus efficace. Les évaluations sur la navigation consciente des avatars confirment en outre que les avatars gaussiens permettent une navigation efficace tenant compte des humains. Enfin, des benchmarks de performance valident l'évolutivité du système face à différentes complexités de scènes et nombres d'avatars.
English
Training embodied AI agents depends critically on the visual fidelity of simulation environments and the ability to model dynamic humans. Current simulators rely on mesh-based rasterization with limited visual realism, and their support for dynamic human avatars, where available, is constrained to mesh representations, hindering agent generalization to human-populated real-world scenarios. We present Habitat-GS, a navigation-centric embodied AI simulator extended from Habitat-Sim that integrates 3D Gaussian Splatting scene rendering and drivable gaussian avatars while maintaining full compatibility with the Habitat ecosystem. Our system implements a 3DGS renderer for real-time photorealistic rendering and supports scalable 3DGS asset import from diverse sources. For dynamic human modeling, we introduce a gaussian avatar module that enables each avatar to simultaneously serve as a photorealistic visual entity and an effective navigation obstacle, allowing agents to learn human-aware behaviors in realistic settings. Experiments on point-goal navigation demonstrate that agents trained on 3DGS scenes achieve stronger cross-domain generalization, with mixed-domain training being the most effective strategy. Evaluations on avatar-aware navigation further confirm that gaussian avatars enable effective human-aware navigation. Finally, performance benchmarks validate the system's scalability across varying scene complexity and avatar counts.