Habitat-GS: Um Simulador de Navegação de Alta Fidelidade com Gaussian Splatting Dinâmico

Resumo

A formação de agentes de IA corporificada depende criticamente da fidelidade visual dos ambientes de simulação e da capacidade de modelar humanos dinâmicos. Os simuladores atuais baseiam-se na rasterização baseada em malhas com realismo visual limitado, e o seu suporte para avatares humanos dinâmicos, quando disponível, está restrito a representações de malhas, dificultando a generalização dos agentes para cenários do mundo real povoados por humanos. Apresentamos o Habitat-GS, um simulador de IA corporificada centrado na navegação, estendido a partir do Habitat-Sim, que integra a renderização de cenas por *Splatting* de Gaussianas 3D e avatares gaussianos controláveis, mantendo total compatibilidade com o ecossistema Habitat. O nosso sistema implementa um renderizador 3DGS para renderização fotorrealista em tempo real e suporta a importação escalável de recursos 3DGS de diversas fontes. Para a modelação dinâmica de humanos, introduzimos um módulo de avatar gaussiano que permite que cada avatar sirva simultaneamente como uma entidade visual fotorrealista e um obstáculo de navegação eficaz, permitindo que os agentes aprendam comportamentos conscientes da presença humana em ambientes realistas. Experiências em navegação por objetivo de ponto demonstram que os agentes treinados em cenas 3DGS alcançam uma generalização mais robusta entre domínios, sendo o treino em domínios mistos a estratégia mais eficaz. Avaliações sobre navegação consciente de avatares confirmam ainda que os avatares gaussianos permitem uma navegação eficaz e consciente da presença humana. Por fim, os benchmarks de desempenho validam a escalabilidade do sistema perante diferentes complexidades de cena e números de avatares.

English

Training embodied AI agents depends critically on the visual fidelity of simulation environments and the ability to model dynamic humans. Current simulators rely on mesh-based rasterization with limited visual realism, and their support for dynamic human avatars, where available, is constrained to mesh representations, hindering agent generalization to human-populated real-world scenarios. We present Habitat-GS, a navigation-centric embodied AI simulator extended from Habitat-Sim that integrates 3D Gaussian Splatting scene rendering and drivable gaussian avatars while maintaining full compatibility with the Habitat ecosystem. Our system implements a 3DGS renderer for real-time photorealistic rendering and supports scalable 3DGS asset import from diverse sources. For dynamic human modeling, we introduce a gaussian avatar module that enables each avatar to simultaneously serve as a photorealistic visual entity and an effective navigation obstacle, allowing agents to learn human-aware behaviors in realistic settings. Experiments on point-goal navigation demonstrate that agents trained on 3DGS scenes achieve stronger cross-domain generalization, with mixed-domain training being the most effective strategy. Evaluations on avatar-aware navigation further confirm that gaussian avatars enable effective human-aware navigation. Finally, performance benchmarks validate the system's scalability across varying scene complexity and avatar counts.

Habitat-GS: Um Simulador de Navegação de Alta Fidelidade com Gaussian Splatting Dinâmico

Habitat-GS: A High-Fidelity Navigation Simulator with Dynamic Gaussian Splatting

Resumo

Support