VL-LN Bench: Op weg naar doelgerichte navigatie met lange-termijnhorizon en actieve dialogen
VL-LN Bench: Towards Long-horizon Goal-oriented Navigation with Active Dialogs
December 26, 2025
Auteurs: Wensi Huang, Shaohao Zhu, Meng Wei, Jinming Xu, Xihui Liu, Hanqing Wang, Tai Wang, Feng Zhao, Jiangmiao Pang
cs.AI
Samenvatting
In de meeste bestaande belichaamde navigatietaken zijn instructies goed gedefinieerd en eenduidig, zoals het opvolgen van instructies en het zoeken naar objecten. In deze geïdealiseerde setting wordt van agenten alleen vereist dat zij effectieve navigatie-uitvoer genereren, geconditioneerd op visuele en taalkundige invoer. In de echte wereld zijn navigatie-instructies echter vaak vaag en dubbelzinnig, waardoor de agent onzekerheid moet oplossen en de intentie van de gebruiker moet afleiden via actieve dialoog. Om deze kloof te dichten, stellen wij Interactive Instance Object Navigation (IION) voor, een taak die agenten niet alleen vereist om navigatieacties te genereren, maar ook om taaluitvoer te produceren via actieve dialoog, waardoor deze beter aansluit bij praktische situaties. IION breidt Instance Object Navigation (ION) uit door agenten toe te staan vrij een orakel te raadplegen in natuurlijke taal tijdens het navigeren. Op basis van deze taak presenteren wij de Vision Language-Language Navigation (VL-LN)-benchmark, die een grootschalige, automatisch gegenereerde dataset en een uitgebreid evaluatieprotocol biedt voor het trainen en beoordelen van dialoogondersteunde navigatiemodellen. VL-LN omvat meer dan 41k trajecten met lange-termijn dialooguitbreidingen voor training en een automatisch evaluatieprotocol met een orakel dat in staat is om vragen van agenten te beantwoorden. Met behulp van deze benchmark trainen wij een navigatiemodel uitgerust met dialoogmogelijkheden en tonen aan dat het significante verbeteringen bereikt ten opzichte van de baseline. Uitgebreide experimenten en analyses tonen verder de effectiviteit en betrouwbaarheid van VL-LN aan voor het bevorderen van onderzoek naar dialoogondersteunde belichaamde navigatie. Code en dataset: https://0309hws.github.io/VL-LN.github.io/
English
In most existing embodied navigation tasks, instructions are well-defined and unambiguous, such as instruction following and object searching. Under this idealized setting, agents are required solely to produce effective navigation outputs conditioned on vision and language inputs. However, real-world navigation instructions are often vague and ambiguous, requiring the agent to resolve uncertainty and infer user intent through active dialog. To address this gap, we propose Interactive Instance Object Navigation (IION), a task that requires agents not only to generate navigation actions but also to produce language outputs via active dialog, thereby aligning more closely with practical settings. IION extends Instance Object Navigation (ION) by allowing agents to freely consult an oracle in natural language while navigating. Building on this task, we present the Vision Language-Language Navigation (VL-LN) benchmark, which provides a large-scale, automatically generated dataset and a comprehensive evaluation protocol for training and assessing dialog-enabled navigation models. VL-LN comprises over 41k long-horizon dialog-augmented trajectories for training and an automatic evaluation protocol with an oracle capable of responding to agent queries. Using this benchmark, we train a navigation model equipped with dialog capabilities and show that it achieves significant improvements over the baselines. Extensive experiments and analyses further demonstrate the effectiveness and reliability of VL-LN for advancing research on dialog-enabled embodied navigation. Code and dataset: https://0309hws.github.io/VL-LN.github.io/