LangMap: Un Benchmark Gerarchico per la Navigazione Verso Obiettivi a Vocabolario Aperto

Abstract

Le relazioni tra oggetti e linguaggio sono fondamentali per una comunicazione significativa tra esseri umani e IA e per un'intelligenza incarnata praticamente utile. Introduciamo HieraNav, un'attività di navigazione verso obiettivi multi-granularità e vocabolario aperto in cui gli agenti interpretano istruzioni in linguaggio naturale per raggiungere target a quattro livelli semantici: scena, stanza, regione e istanza. A tal fine, presentiamo Language as a Map (LangMap), un benchmark su larga scala costruito su scansioni 3D indoor del mondo reale con annotazioni complete verificate da esseri umani e compiti che abbracciano questi livelli. LangMap fornisce etichette di regione, descrizioni di regione discriminative, descrizioni di istanza discriminative che coprono 414 categorie di oggetti e oltre 18.000 attività di navigazione. Ogni target presenta sia descrizioni concise che dettagliate, consentendo la valutazione su diversi stili di istruzione. LangMap raggiunge una qualità di annotazione superiore, superando GOAT-Bench del 23,8% in accuratezza discriminativa utilizzando quattro volte meno parole. Valutazioni complete di modelli zero-shot e supervisionati su LangMap rivelano che un contesto e una memoria più ricchi migliorano il successo, mentre obiettivi a coda lunga, piccoli, dipendenti dal contesto e distanti, così come il completamento multi-obiettivo, rimangono sfide aperte. HieraNav e LangMap stabiliscono un banco di prova rigoroso per far progredire la navigazione incarnata guidata dal linguaggio. Progetto: https://bo-miao.github.io/LangMap

English

The relationships between objects and language are fundamental to meaningful communication between humans and AI, and to practically useful embodied intelligence. We introduce HieraNav, a multi-granularity, open-vocabulary goal navigation task where agents interpret natural language instructions to reach targets at four semantic levels: scene, room, region, and instance. To this end, we present Language as a Map (LangMap), a large-scale benchmark built on real-world 3D indoor scans with comprehensive human-verified annotations and tasks spanning these levels. LangMap provides region labels, discriminative region descriptions, discriminative instance descriptions covering 414 object categories, and over 18K navigation tasks. Each target features both concise and detailed descriptions, enabling evaluation across different instruction styles. LangMap achieves superior annotation quality, outperforming GOAT-Bench by 23.8% in discriminative accuracy using four times fewer words. Comprehensive evaluations of zero-shot and supervised models on LangMap reveal that richer context and memory improve success, while long-tailed, small, context-dependent, and distant goals, as well as multi-goal completion, remain challenging. HieraNav and LangMap establish a rigorous testbed for advancing language-driven embodied navigation. Project: https://bo-miao.github.io/LangMap

LangMap: Un Benchmark Gerarchico per la Navigazione Verso Obiettivi a Vocabolario Aperto

LangMap: A Hierarchical Benchmark for Open-Vocabulary Goal Navigation

Abstract

Support