ChatPaper.aiChatPaper

VL-LN Bench : Vers une navigation orientée objectif à long horizon avec dialogues actifs

VL-LN Bench: Towards Long-horizon Goal-oriented Navigation with Active Dialogs

December 26, 2025
papers.authors: Wensi Huang, Shaohao Zhu, Meng Wei, Jinming Xu, Xihui Liu, Hanqing Wang, Tai Wang, Feng Zhao, Jiangmiao Pang
cs.AI

papers.abstract

Dans la plupart des tâches de navigation incarnée existantes, les instructions sont bien définies et non ambiguës, comme le suivi d'instructions ou la recherche d'objets. Dans ce cadre idéalisé, les agents doivent uniquement produire des actions de navigation efficaces en fonction des entrées visuelles et linguistiques. Cependant, les instructions de navigation dans le monde réel sont souvent vagues et ambiguës, nécessitant que l'agent résolve les incertitudes et infère l'intention de l'utilisateur via un dialogue actif. Pour combler cette lacune, nous proposons la Navigation Interactive par Instance d'Objet (IION), une tâche qui exige des agents non seulement de générer des actions de navigation, mais aussi de produire des sorties linguistiques via un dialogue actif, se rapprochant ainsi davantage des situations pratiques. IION étend la Navigation par Instance d'Objet (ION) en permettant aux agents de consulter librement un oracle en langage naturel lors de la navigation. Sur la base de cette tâche, nous présentons le benchmark Vision-Langage pour la Navigation (VL-LN), qui fournit un jeu de données à grande échelle généré automatiquement et un protocole d'évaluation complet pour entraîner et évaluer les modèles de navigation avec capacités dialogiques. VL-LN comprend plus de 41 000 trajectoires augmentées par un dialogue à long horizon pour l'entraînement, ainsi qu'un protocole d'évaluation automatique avec un oracle capable de répondre aux requêtes de l'agent. En utilisant ce benchmark, nous entraînons un modèle de navigation doté de capacités dialogiques et montrons qu'il obtient des améliorations significatives par rapport aux lignes de base. Des expériences et analyses approfondies démontrent en outre l'efficacité et la fiabilité de VL-LN pour faire progresser la recherche sur la navigation incarnée avec dialogue. Code et jeu de données : https://0309hws.github.io/VL-LN.github.io/
English
In most existing embodied navigation tasks, instructions are well-defined and unambiguous, such as instruction following and object searching. Under this idealized setting, agents are required solely to produce effective navigation outputs conditioned on vision and language inputs. However, real-world navigation instructions are often vague and ambiguous, requiring the agent to resolve uncertainty and infer user intent through active dialog. To address this gap, we propose Interactive Instance Object Navigation (IION), a task that requires agents not only to generate navigation actions but also to produce language outputs via active dialog, thereby aligning more closely with practical settings. IION extends Instance Object Navigation (ION) by allowing agents to freely consult an oracle in natural language while navigating. Building on this task, we present the Vision Language-Language Navigation (VL-LN) benchmark, which provides a large-scale, automatically generated dataset and a comprehensive evaluation protocol for training and assessing dialog-enabled navigation models. VL-LN comprises over 41k long-horizon dialog-augmented trajectories for training and an automatic evaluation protocol with an oracle capable of responding to agent queries. Using this benchmark, we train a navigation model equipped with dialog capabilities and show that it achieves significant improvements over the baselines. Extensive experiments and analyses further demonstrate the effectiveness and reliability of VL-LN for advancing research on dialog-enabled embodied navigation. Code and dataset: https://0309hws.github.io/VL-LN.github.io/
PDF81December 31, 2025