Habitat-GS: Ein hochpräziser Navigationssimulator mit dynamischem Gaussian Splatting

Zusammenfassung

Das Training verkörperter KI-Agenten hängt entscheidend von der visuellen Qualität der Simulationsumgebungen und der Fähigkeit zur Modellierung dynamischer Menschen ab. Aktuelle Simulatoren basieren auf mesh-basierter Rasterisierung mit begrenzter visueller Realitätstreue, und ihre Unterstützung für dynamische menschliche Avatare – sofern vorhanden – beschränkt sich auf Mesh-Repräsentationen, was die Generalisierungsfähigkeit der Agenten auf reale, von Menschen bevölkerte Szenarien behindert. Wir stellen Habitat-GS vor, einen auf Navigation spezialisierten Simulator für verkörperte KI, der aus Habitat-Sim erweitert wurde und 3D-Gaussian-Splatting-Szenenrendering sowie steuerbare Gauß-Avatare integriert, während vollständige Kompatibilität mit dem Habitat-Ökosystem erhalten bleibt. Unser System implementiert einen 3DGS-Renderer für Echtzeit-Rendering mit fotorealistischer Qualität und unterstützt skalierbaren Import von 3DGS-Assets aus verschiedenen Quellen. Für die dynamische Menschmodellierung führen wir ein Gauß-Avatar-Modul ein, das es jedem Avatar ermöglicht, gleichzeitig als fotorealistische visuelle Entität und als effektives Navigationshindernis zu dienen, sodass Agenten menschenbewusstes Verhalten in realistischen Umgebungen erlernen können. Experimente zur Punktziel-Navigation zeigen, dass auf 3DGS-Szenen trainierte Agenten eine stärkere domänenübergreifende Generalisierung erreichen, wobei Mixed-Domain-Training die effektivste Strategie darstellt. Evaluierungen zur avatarbewussten Navigation bestätigen weiterhin, dass Gauß-Avatare eine effektive menschenbewusste Navigation ermöglichen. Leistungsbenchmarks validieren schließlich die Skalierbarkeit des Systems bei variierender Szenenkomplexität und Avatar-Anzahl.

English

Training embodied AI agents depends critically on the visual fidelity of simulation environments and the ability to model dynamic humans. Current simulators rely on mesh-based rasterization with limited visual realism, and their support for dynamic human avatars, where available, is constrained to mesh representations, hindering agent generalization to human-populated real-world scenarios. We present Habitat-GS, a navigation-centric embodied AI simulator extended from Habitat-Sim that integrates 3D Gaussian Splatting scene rendering and drivable gaussian avatars while maintaining full compatibility with the Habitat ecosystem. Our system implements a 3DGS renderer for real-time photorealistic rendering and supports scalable 3DGS asset import from diverse sources. For dynamic human modeling, we introduce a gaussian avatar module that enables each avatar to simultaneously serve as a photorealistic visual entity and an effective navigation obstacle, allowing agents to learn human-aware behaviors in realistic settings. Experiments on point-goal navigation demonstrate that agents trained on 3DGS scenes achieve stronger cross-domain generalization, with mixed-domain training being the most effective strategy. Evaluations on avatar-aware navigation further confirm that gaussian avatars enable effective human-aware navigation. Finally, performance benchmarks validate the system's scalability across varying scene complexity and avatar counts.

Habitat-GS: Ein hochpräziser Navigationssimulator mit dynamischem Gaussian Splatting

Habitat-GS: A High-Fidelity Navigation Simulator with Dynamic Gaussian Splatting

Zusammenfassung

Support