LangMap: Иерархический бенчмарк для навигации к целям с открытым словарем
LangMap: A Hierarchical Benchmark for Open-Vocabulary Goal Navigation
February 2, 2026
Авторы: Bo Miao, Weijia Liu, Jun Luo, Lachlan Shinnick, Jian Liu, Thomas Hamilton-Smith, Yuhe Yang, Zijie Wu, Vanja Videnovic, Feras Dayoub, Anton van den Hengel
cs.AI
Аннотация
Взаимосвязи между объектами и языком являются фундаментальными для осмысленной коммуникации между человеком и ИИ, а также для практически полезного воплощённого интеллекта. Мы представляем HieraNav — задачу навигации к цели с многогранулярностью и открытым словарём, в которой агенты интерпретируют инструкции на естественном языке для достижения целей на четырёх семантических уровнях: сцена, комната, регион и экземпляр. Для этого мы предлагаем Language as a Map (LangMap) — крупномасштабный бенчмарк, построенный на основе реальных 3D-сканов помещений с исчерпывающими проверенными человеком аннотациями и задачами, охватывающими эти уровни. LangMap предоставляет метки регионов, дискриминативные описания регионов, дискриминативные описания экземпляров, охватывающие 414 категорий объектов, и более 18K задач навигации. Каждая цель снабжена как краткими, так и подробными описаниями, что позволяет проводить оценку для различных стилей инструкций. LangMap демонстрирует превосходное качество аннотаций, превосходя GOAT-Bench на 23.8% по дискриминативной точности при использовании в четыре раза меньше слов. Всесторонние оценки zero-shot и supervised моделей на LangMap показывают, что более богатый контекст и память повышают успешность, в то время как задачи с длинным хвостом, малыми, контекстно-зависимыми и удалёнными целями, а также с выполнением нескольких целей остаются сложными. HieraNav и LangMap создают строгую испытательную среду для развития языково-управляемой воплощённой навигации. Проект: https://bo-miao.github.io/LangMap
English
The relationships between objects and language are fundamental to meaningful communication between humans and AI, and to practically useful embodied intelligence. We introduce HieraNav, a multi-granularity, open-vocabulary goal navigation task where agents interpret natural language instructions to reach targets at four semantic levels: scene, room, region, and instance. To this end, we present Language as a Map (LangMap), a large-scale benchmark built on real-world 3D indoor scans with comprehensive human-verified annotations and tasks spanning these levels. LangMap provides region labels, discriminative region descriptions, discriminative instance descriptions covering 414 object categories, and over 18K navigation tasks. Each target features both concise and detailed descriptions, enabling evaluation across different instruction styles. LangMap achieves superior annotation quality, outperforming GOAT-Bench by 23.8% in discriminative accuracy using four times fewer words. Comprehensive evaluations of zero-shot and supervised models on LangMap reveal that richer context and memory improve success, while long-tailed, small, context-dependent, and distant goals, as well as multi-goal completion, remain challenging. HieraNav and LangMap establish a rigorous testbed for advancing language-driven embodied navigation. Project: https://bo-miao.github.io/LangMap