LangMap: Un Punto de Referencia Jerárquico para la Navegación por Objetivos de Vocabulario Abierto
LangMap: A Hierarchical Benchmark for Open-Vocabulary Goal Navigation
February 2, 2026
Autores: Bo Miao, Weijia Liu, Jun Luo, Lachlan Shinnick, Jian Liu, Thomas Hamilton-Smith, Yuhe Yang, Zijie Wu, Vanja Videnovic, Feras Dayoub, Anton van den Hengel
cs.AI
Resumen
Las relaciones entre objetos y lenguaje son fundamentales para la comunicación significativa entre humanos e IA, y para una inteligencia encarnada prácticamente útil. Presentamos HieraNav, una tarea de navegación hacia objetivos multi-granular y de vocabulario abierto donde los agentes interpretan instrucciones en lenguaje natural para alcanzar objetivos en cuatro niveles semánticos: escena, habitación, región e instancia. Para ello, presentamos Language as a Map (LangMap), un benchmark a gran escala construido a partir de escaneos 3D interiores del mundo real con anotaciones exhaustivas verificadas por humanos y tareas que abarcan estos niveles. LangMap proporciona etiquetas de región, descripciones de región discriminativas, descripciones de instancia discriminativas que cubren 414 categorías de objetos, y más de 18.000 tareas de navegación. Cada objetivo cuenta con descripciones tanto concisas como detalladas, permitiendo la evaluación en diferentes estilos de instrucción. LangMap logra una calidad de anotación superior, superando a GOAT-Bench en un 23.8% en precisión discriminativa utilizando cuatro veces menos palabras. Las evaluaciones exhaustivas de modelos zero-shot y supervisados en LangMap revelan que un contexto y memoria más ricos mejoran el éxito, mientras que los objetivos de cola larga, pequeños, dependientes del contexto y distantes, así como la finalización de múltiples objetivos, siguen siendo desafiantes. HieraNav y LangMap establecen un banco de pruebas riguroso para avanzar en la navegación encarnada impulsada por lenguaje. Proyecto: https://bo-miao.github.io/LangMap
English
The relationships between objects and language are fundamental to meaningful communication between humans and AI, and to practically useful embodied intelligence. We introduce HieraNav, a multi-granularity, open-vocabulary goal navigation task where agents interpret natural language instructions to reach targets at four semantic levels: scene, room, region, and instance. To this end, we present Language as a Map (LangMap), a large-scale benchmark built on real-world 3D indoor scans with comprehensive human-verified annotations and tasks spanning these levels. LangMap provides region labels, discriminative region descriptions, discriminative instance descriptions covering 414 object categories, and over 18K navigation tasks. Each target features both concise and detailed descriptions, enabling evaluation across different instruction styles. LangMap achieves superior annotation quality, outperforming GOAT-Bench by 23.8% in discriminative accuracy using four times fewer words. Comprehensive evaluations of zero-shot and supervised models on LangMap reveal that richer context and memory improve success, while long-tailed, small, context-dependent, and distant goals, as well as multi-goal completion, remain challenging. HieraNav and LangMap establish a rigorous testbed for advancing language-driven embodied navigation. Project: https://bo-miao.github.io/LangMap