LangMap : un benchmark hiérarchique pour la navigation vers un but en vocabulaire ouvert
LangMap: A Hierarchical Benchmark for Open-Vocabulary Goal Navigation
February 2, 2026
papers.authors: Bo Miao, Weijia Liu, Jun Luo, Lachlan Shinnick, Jian Liu, Thomas Hamilton-Smith, Yuhe Yang, Zijie Wu, Vanja Videnovic, Feras Dayoub, Anton van den Hengel
cs.AI
papers.abstract
Les relations entre les objets et le langage sont fondamentales pour une communication significative entre les humains et l'IA, ainsi que pour une intelligence incarnée véritablement utile. Nous présentons HieraNav, une tâche de navigation vers un objectif multi-granularité et à vocabulaire ouvert, où des agents interprètent des instructions en langage naturel pour atteindre des cibles à quatre niveaux sémantiques : scène, pièce, région et instance. Pour ce faire, nous proposons LangMap (Language as a Map), un benchmark à grande échelle construit à partir de scans 3D intérieurs du monde réel, avec des annotations complètes vérifiées par des humains et des tâches couvrant ces niveaux. LangMap fournit des étiquettes de région, des descriptions de régions discriminantes, des descriptions d'instances discriminantes couvrant 414 catégories d'objets, et plus de 18 000 tâches de navigation. Chaque cible dispose de descriptions à la fois concises et détaillées, permettant une évaluation sur différents styles d'instruction. LangMap atteint une qualité d'annotation supérieure, surpassant GOAT-Bench de 23,8 % en précision discriminative en utilisant quatre fois moins de mots. Des évaluations complètes de modèles zero-shot et supervisés sur LangMap révèlent qu'un contexte plus riche et une mémoire améliorée augmentent le taux de succès, tandis que les objectifs à longue traîne, de petite taille, dépendants du contexte et éloignés, ainsi que l'achèvement multi-objectifs, restent des défis. HieraNav et LangMap établissent un banc d'essai rigoureux pour faire progresser la navigation incarnée pilotée par le langage. Projet : https://bo-miao.github.io/LangMap
English
The relationships between objects and language are fundamental to meaningful communication between humans and AI, and to practically useful embodied intelligence. We introduce HieraNav, a multi-granularity, open-vocabulary goal navigation task where agents interpret natural language instructions to reach targets at four semantic levels: scene, room, region, and instance. To this end, we present Language as a Map (LangMap), a large-scale benchmark built on real-world 3D indoor scans with comprehensive human-verified annotations and tasks spanning these levels. LangMap provides region labels, discriminative region descriptions, discriminative instance descriptions covering 414 object categories, and over 18K navigation tasks. Each target features both concise and detailed descriptions, enabling evaluation across different instruction styles. LangMap achieves superior annotation quality, outperforming GOAT-Bench by 23.8% in discriminative accuracy using four times fewer words. Comprehensive evaluations of zero-shot and supervised models on LangMap reveal that richer context and memory improve success, while long-tailed, small, context-dependent, and distant goals, as well as multi-goal completion, remain challenging. HieraNav and LangMap establish a rigorous testbed for advancing language-driven embodied navigation. Project: https://bo-miao.github.io/LangMap