LangMap: Um Benchmark Hierárquico para Navegação por Objetivos com Vocabulário Aberto

Resumo

As relações entre objetos e linguagem são fundamentais para uma comunicação significativa entre humanos e IA, e para uma inteligência incorporada praticamente útil. Apresentamos o HieraNav, uma tarefa de navegação para objetivos com vocabulário livre e múltiplas granularidades, na qual os agentes interpretam instruções em linguagem natural para alcançar alvos em quatro níveis semânticos: cena, sala, região e instância. Para isso, apresentamos o Language as a Map (LangMap), um benchmark de larga escala construído a partir de digitalizações 3D internas do mundo real, com anotações abrangentes verificadas por humanos e tarefas que abrangem esses níveis. O LangMap fornece rótulos de região, descrições de região discriminativas, descrições de instância discriminativas abrangendo 414 categorias de objetos e mais de 18 mil tarefas de navegação. Cada alvo apresenta descrições concisas e detalhadas, permitindo a avaliação em diferentes estilos de instrução. O LangMap alcança uma qualidade de anotação superior, superando o GOAT-Bench em 23,8% em precisão discriminativa usando quatro vezes menos palavras. Avaliações abrangentes de modelos *zero-shot* e supervisionados no LangMap revelam que um contexto e uma memória mais ricos melhoram o sucesso, enquanto objetivos de cauda longa, pequenos, dependentes de contexto e distantes, bem como a conclusão de múltiplos objetivos, permanecem desafiadores. O HieraNav e o LangMap estabelecem um ambiente de teste rigoroso para o avanço da navegação incorporada orientada por linguagem. Projeto: https://bo-miao.github.io/LangMap

English

The relationships between objects and language are fundamental to meaningful communication between humans and AI, and to practically useful embodied intelligence. We introduce HieraNav, a multi-granularity, open-vocabulary goal navigation task where agents interpret natural language instructions to reach targets at four semantic levels: scene, room, region, and instance. To this end, we present Language as a Map (LangMap), a large-scale benchmark built on real-world 3D indoor scans with comprehensive human-verified annotations and tasks spanning these levels. LangMap provides region labels, discriminative region descriptions, discriminative instance descriptions covering 414 object categories, and over 18K navigation tasks. Each target features both concise and detailed descriptions, enabling evaluation across different instruction styles. LangMap achieves superior annotation quality, outperforming GOAT-Bench by 23.8% in discriminative accuracy using four times fewer words. Comprehensive evaluations of zero-shot and supervised models on LangMap reveal that richer context and memory improve success, while long-tailed, small, context-dependent, and distant goals, as well as multi-goal completion, remain challenging. HieraNav and LangMap establish a rigorous testbed for advancing language-driven embodied navigation. Project: https://bo-miao.github.io/LangMap