LangMap: 개방형 어휘 목표 항법을 위한 계층적 벤치마크
LangMap: A Hierarchical Benchmark for Open-Vocabulary Goal Navigation
February 2, 2026
저자: Bo Miao, Weijia Liu, Jun Luo, Lachlan Shinnick, Jian Liu, Thomas Hamilton-Smith, Yuhe Yang, Zijie Wu, Vanja Videnovic, Feras Dayoub, Anton van den Hengel
cs.AI
초록
사물과 언어 간의 관계는 인간과 AI 간의 의미 있는 의사소통과 실질적으로 유용한 구체화 지능에 핵심적입니다. 우리는 HieraNav를 소개합니다. 이는 에이전트가 자연어 지시를 해석하여 장면, 방, 영역, 인스턴스라는 네 가지 의미 수준에서 목표에 도달하는 다중 세분성 및 개방형 어휘 목표 항법 작업입니다. 이를 위해 우리는 실제 3D 실내 스캔을 기반으로 인간 검증이 완료된 포괄적인 주석과 다양한 수준의 작업을 포함하는 대규모 벤치마크인 Language as a Map (LangMap)을 제시합니다. LangMap은 414개 객체 범주를 포괄하는 영역 라벨, 변별적 영역 설명, 변별적 인스턴스 설명과 18,000개 이상의 항법 작업을 제공합니다. 각 목표는 간결한 설명과 상세한 설명을 모두 포함하여 다양한 지시 스타일에서의 평가를 가능하게 합니다. LangMap은 우수한 주석 품질을 달성하여, GOAT-Bench 대비 단어 수는 4분의 1로 줄이면서 변별 정확도는 23.8% 향상되었습니다. LangMap에 대한 제로샷 및 지도 학습 모델의 포괄적 평가는 더 풍부한 문맥과 메모리가 성공률을 향상시키지만, 롱테일, 소규모, 문맥 의존적 및 원격 목표와 다중 목표 완수는 여전히 어려운 과제임을 보여줍니다. HieraNav와 LangMap은 언어 주도 구체화 항법 발전을 위한 엄격한 테스트베드를 구축합니다. 프로젝트: https://bo-miao.github.io/LangMap
English
The relationships between objects and language are fundamental to meaningful communication between humans and AI, and to practically useful embodied intelligence. We introduce HieraNav, a multi-granularity, open-vocabulary goal navigation task where agents interpret natural language instructions to reach targets at four semantic levels: scene, room, region, and instance. To this end, we present Language as a Map (LangMap), a large-scale benchmark built on real-world 3D indoor scans with comprehensive human-verified annotations and tasks spanning these levels. LangMap provides region labels, discriminative region descriptions, discriminative instance descriptions covering 414 object categories, and over 18K navigation tasks. Each target features both concise and detailed descriptions, enabling evaluation across different instruction styles. LangMap achieves superior annotation quality, outperforming GOAT-Bench by 23.8% in discriminative accuracy using four times fewer words. Comprehensive evaluations of zero-shot and supervised models on LangMap reveal that richer context and memory improve success, while long-tailed, small, context-dependent, and distant goals, as well as multi-goal completion, remain challenging. HieraNav and LangMap establish a rigorous testbed for advancing language-driven embodied navigation. Project: https://bo-miao.github.io/LangMap