LangMap: Eine hierarchische Benchmark für die Navigation zu Zielen mit offenem Vokabular
LangMap: A Hierarchical Benchmark for Open-Vocabulary Goal Navigation
February 2, 2026
papers.authors: Bo Miao, Weijia Liu, Jun Luo, Lachlan Shinnick, Jian Liu, Thomas Hamilton-Smith, Yuhe Yang, Zijie Wu, Vanja Videnovic, Feras Dayoub, Anton van den Hengel
cs.AI
papers.abstract
Die Beziehungen zwischen Objekten und Sprache sind grundlegend für eine bedeutungsvolle Kommunikation zwischen Menschen und KI sowie für praktisch nützliche verkörperte Intelligenz. Wir stellen HieraNav vor, eine multi-granulare, open-vocabulary Zielnavigation, bei der Agenten natürliche Sprachbefehle interpretieren, um Ziele auf vier semantischen Ebenen zu erreichen: Szene, Raum, Region und Instanz. Zu diesem Zweck präsentieren wir Language as a Map (LangMap), einen groß angelegten Benchmark, der auf realen 3D-Innenraumscans basiert und umfassende, menschlich verifizierte Annotationen sowie Aufgaben über diese Ebenen hinweg umfasst. LangMap bietet Regionsbezeichnungen, diskriminierende Regionsbeschreibungen, diskriminierende Instanzbeschreibungen für 414 Objektkategorien und über 18.000 Navigationsaufgaben. Jedes Ziel verfügt sowohl über kurze als auch detaillierte Beschreibungen, was eine Evaluation über verschiedene Anweisungsstile hinweg ermöglicht. LangMap erreicht eine überlegene Annotationsqualität und übertrifft GOAT-Bench in der diskriminativen Genauigkeit um 23,8 % bei viermal weniger Wörtern. Umfassende Evaluationen von Zero-Shot- und supervidierten Modellen auf LangMap zeigen, dass ein reichhaltigerer Kontext und Gedächtnis die Erfolgsrate verbessern, während langschwänzige, kleine, kontextabhängige und entfernte Ziele sowie die Erfüllung mehrerer Ziele nach wie vor herausfordernd bleiben. HieraNav und LangMap etablieren eine rigorose Testumgebung für die Weiterentwicklung der sprachgesteuerten, verkörperten Navigation. Projekt: https://bo-miao.github.io/LangMap
English
The relationships between objects and language are fundamental to meaningful communication between humans and AI, and to practically useful embodied intelligence. We introduce HieraNav, a multi-granularity, open-vocabulary goal navigation task where agents interpret natural language instructions to reach targets at four semantic levels: scene, room, region, and instance. To this end, we present Language as a Map (LangMap), a large-scale benchmark built on real-world 3D indoor scans with comprehensive human-verified annotations and tasks spanning these levels. LangMap provides region labels, discriminative region descriptions, discriminative instance descriptions covering 414 object categories, and over 18K navigation tasks. Each target features both concise and detailed descriptions, enabling evaluation across different instruction styles. LangMap achieves superior annotation quality, outperforming GOAT-Bench by 23.8% in discriminative accuracy using four times fewer words. Comprehensive evaluations of zero-shot and supervised models on LangMap reveal that richer context and memory improve success, while long-tailed, small, context-dependent, and distant goals, as well as multi-goal completion, remain challenging. HieraNav and LangMap establish a rigorous testbed for advancing language-driven embodied navigation. Project: https://bo-miao.github.io/LangMap