LangMap: Een hiërarchische benchmark voor open-vocabularium doel-navigatie
LangMap: A Hierarchical Benchmark for Open-Vocabulary Goal Navigation
February 2, 2026
Auteurs: Bo Miao, Weijia Liu, Jun Luo, Lachlan Shinnick, Jian Liu, Thomas Hamilton-Smith, Yuhe Yang, Zijie Wu, Vanja Videnovic, Feras Dayoub, Anton van den Hengel
cs.AI
Samenvatting
De relaties tussen objecten en taal zijn fundamenteel voor betekenisvolle communicatie tussen mensen en AI, en voor praktisch bruikbare belichaamde intelligentie. Wij introduceren HieraNav, een multi-granulariteit, open-vocabulary doel-navigatietaak waarbij agents natuurlijke taal instructies interpreteren om doelen te bereiken op vier semantische niveaus: scène, kamer, regio en instantie. Hiertoe presenteren wij Language as a Map (LangMap), een grootschalige benchmark gebaseerd op real-world 3D indoor-scans met uitgebreide, door mensen geverifieerde annotaties en taken die deze niveaus omspannen. LangMap biedt regiogebiedlabels, onderscheidende regiobeschrijvingen, onderscheidende instantiebeschrijvingen die 414 objectcategorieën beslaan, en meer dan 18K navigatietaken. Elk doel kenmerkt zich door zowel beknopte als gedetailleerde beschrijvingen, wat evaluatie over verschillende instructiestijlen mogelijk maakt. LangMap bereikt een superieure annotatiekwaliteit en overtreft GOAT-Bench met 23,8% in onderscheidend vermogen met viermaal minder woorden. Uitgebreide evaluaties van zero-shot en supervised modellen op LangMap onthullen dat rijkere context en geheugen het succes verbeteren, terwijl long-tailed, kleine, contextafhankelijke en verre doelen, evenals multi-doel voltooiing, uitdagend blijven. HieraNav en LangMap vormen een rigoureuze testomgeving voor de vooruitgang van taalgedreven belichaamde navigatie. Project: https://bo-miao.github.io/LangMap
English
The relationships between objects and language are fundamental to meaningful communication between humans and AI, and to practically useful embodied intelligence. We introduce HieraNav, a multi-granularity, open-vocabulary goal navigation task where agents interpret natural language instructions to reach targets at four semantic levels: scene, room, region, and instance. To this end, we present Language as a Map (LangMap), a large-scale benchmark built on real-world 3D indoor scans with comprehensive human-verified annotations and tasks spanning these levels. LangMap provides region labels, discriminative region descriptions, discriminative instance descriptions covering 414 object categories, and over 18K navigation tasks. Each target features both concise and detailed descriptions, enabling evaluation across different instruction styles. LangMap achieves superior annotation quality, outperforming GOAT-Bench by 23.8% in discriminative accuracy using four times fewer words. Comprehensive evaluations of zero-shot and supervised models on LangMap reveal that richer context and memory improve success, while long-tailed, small, context-dependent, and distant goals, as well as multi-goal completion, remain challenging. HieraNav and LangMap establish a rigorous testbed for advancing language-driven embodied navigation. Project: https://bo-miao.github.io/LangMap