VL-LN Bench: Verso una Navigazione Orientata a Obiettivi a Lungo Orizzonte con Dialoghi Attivi

Abstract

Nella maggior parte delle compiti esistenti di navigazione embodied, le istruzioni sono ben definite e inequivocabili, come nel caso del seguire istruzioni o della ricerca di oggetti. In questo contesto idealizzato, gli agenti devono semplicemente produrre output di navigazione efficaci condizionati da input visivi e linguistici. Tuttavia, le istruzioni di navigazione nel mondo reale sono spesso vaghe e ambigue, richiedendo all'agente di risolvere l'incertezza e inferire l'intento dell'utente attraverso dialoghi attivi. Per colmare questa lacuna, proponiamo Interactive Instance Object Navigation (IION), un compito che richiede agli agenti non solo di generare azioni di navigazione ma anche di produrre output linguistici tramite dialoghi attivi, allineandosi così maggiormente a contesti pratici. IION estende Instance Object Navigation (ION) consentendo agli agenti di consultare liberamente un oracolo in linguaggio naturale durante la navigazione. Basandoci su questo compito, presentiamo il benchmark Vision Language-Language Navigation (VL-LN), che fornisce un dataset su larga scala generato automaticamente e un protocollo di valutazione completo per l'addestramento e la valutazione di modelli di navigazione abilitati al dialogo. VL-LN comprende oltre 41k traiettorie a lungo orizzonte aumentate con dialoghi per l'addestramento e un protocollo di valutazione automatica con un oracolo in grado di rispondere alle interrogazioni dell'agente. Utilizzando questo benchmark, addestriamo un modello di navigazione dotato di capacità dialogiche e dimostriamo che raggiunge miglioramenti significativi rispetto ai baseline. Esperimenti e analisi estese dimostrano ulteriormente l'efficacia e l'affidabilità di VL-LN per far progredire la ricerca sulla navigazione embodied abilitata al dialogo. Codice e dataset: https://0309hws.github.io/VL-LN.github.io/

English

In most existing embodied navigation tasks, instructions are well-defined and unambiguous, such as instruction following and object searching. Under this idealized setting, agents are required solely to produce effective navigation outputs conditioned on vision and language inputs. However, real-world navigation instructions are often vague and ambiguous, requiring the agent to resolve uncertainty and infer user intent through active dialog. To address this gap, we propose Interactive Instance Object Navigation (IION), a task that requires agents not only to generate navigation actions but also to produce language outputs via active dialog, thereby aligning more closely with practical settings. IION extends Instance Object Navigation (ION) by allowing agents to freely consult an oracle in natural language while navigating. Building on this task, we present the Vision Language-Language Navigation (VL-LN) benchmark, which provides a large-scale, automatically generated dataset and a comprehensive evaluation protocol for training and assessing dialog-enabled navigation models. VL-LN comprises over 41k long-horizon dialog-augmented trajectories for training and an automatic evaluation protocol with an oracle capable of responding to agent queries. Using this benchmark, we train a navigation model equipped with dialog capabilities and show that it achieves significant improvements over the baselines. Extensive experiments and analyses further demonstrate the effectiveness and reliability of VL-LN for advancing research on dialog-enabled embodied navigation. Code and dataset: https://0309hws.github.io/VL-LN.github.io/

VL-LN Bench: Verso una Navigazione Orientata a Obiettivi a Lungo Orizzonte con Dialoghi Attivi

VL-LN Bench: Towards Long-horizon Goal-oriented Navigation with Active Dialogs

Abstract

Support