ChatPaper.aiChatPaper

LangMap: オープン語彙目標ナビゲーションのための階層的ベンチマーク

LangMap: A Hierarchical Benchmark for Open-Vocabulary Goal Navigation

February 2, 2026
著者: Bo Miao, Weijia Liu, Jun Luo, Lachlan Shinnick, Jian Liu, Thomas Hamilton-Smith, Yuhe Yang, Zijie Wu, Vanja Videnovic, Feras Dayoub, Anton van den Hengel
cs.AI

要旨

物体と言語の関係は、人間とAIの間の意味あるコミュニケーション、および実用的な身体性知能にとって基本的な重要性を持つ。本論文では、HieraNavを提案する。これは、エージェントが自然言語の指示を解釈し、シーン、部屋、領域、インスタンスという4つの意味レベルで目標に到達する、マルチ粒度・オープン語彙の目標ナビゲーションタスクである。この目的のために、現実世界の3D室内スキャンデータに基づき、人間による検証を経た包括的なアノテーションと前述の各レベルにわたるタスクを備えた大規模ベンチマーク、Language as a Map (LangMap) を提示する。LangMapは、領域ラベル、識別的な領域記述、414のオブジェクトカテゴリを網羅する識別的なインスタンス記述、そして18,000以上のナビゲーションタスクを提供する。各目標地点には簡潔な説明と詳細な説明の両方が用意されており、異なる指示スタイルにわたる評価を可能にしている。LangMapは優れたアノテーション品質を実現し、単語数を4分の1に抑えつつ、識別精度においてGOAT-Benchを23.8%上回る。LangMapを用いたゼロショットモデルおよび教師ありモデルの包括的評価により、より豊富な文脈とメモリが成功率を向上させる一方で、ロングテール・小型・文脈依存・遠距離の目標、および複数目標の達成が依然として課題であることが明らかになった。HieraNavとLangMapは、言語駆動型の身体性ナビゲーションの発展に向けた厳密なテストベッドを確立する。プロジェクト: https://bo-miao.github.io/LangMap
English
The relationships between objects and language are fundamental to meaningful communication between humans and AI, and to practically useful embodied intelligence. We introduce HieraNav, a multi-granularity, open-vocabulary goal navigation task where agents interpret natural language instructions to reach targets at four semantic levels: scene, room, region, and instance. To this end, we present Language as a Map (LangMap), a large-scale benchmark built on real-world 3D indoor scans with comprehensive human-verified annotations and tasks spanning these levels. LangMap provides region labels, discriminative region descriptions, discriminative instance descriptions covering 414 object categories, and over 18K navigation tasks. Each target features both concise and detailed descriptions, enabling evaluation across different instruction styles. LangMap achieves superior annotation quality, outperforming GOAT-Bench by 23.8% in discriminative accuracy using four times fewer words. Comprehensive evaluations of zero-shot and supervised models on LangMap reveal that richer context and memory improve success, while long-tailed, small, context-dependent, and distant goals, as well as multi-goal completion, remain challenging. HieraNav and LangMap establish a rigorous testbed for advancing language-driven embodied navigation. Project: https://bo-miao.github.io/LangMap
PDF11February 5, 2026