VL-LN Bench: Hacia la Navegación Orientada a Objetivos de Largo Horizonte con Diálogos Activos
VL-LN Bench: Towards Long-horizon Goal-oriented Navigation with Active Dialogs
December 26, 2025
Autores: Wensi Huang, Shaohao Zhu, Meng Wei, Jinming Xu, Xihui Liu, Hanqing Wang, Tai Wang, Feng Zhao, Jiangmiao Pang
cs.AI
Resumen
En la mayoría de las tareas de navegación corporizada existentes, las instrucciones están bien definidas y son inequívocas, como el seguimiento de instrucciones y la búsqueda de objetos. Bajo este escenario idealizado, los agentes solo deben producir salidas de navegación efectivas condicionadas por las entradas visuales y lingüísticas. Sin embargo, las instrucciones de navegación del mundo real a menudo son vagas y ambiguas, lo que requiere que el agente resuelva la incertidumbre e infiera la intención del usuario mediante un diálogo activo. Para abordar esta brecha, proponemos la Navegación de Objetos por Instancia Interactiva (IION), una tarea que requiere que los agentes no solo generen acciones de navegación, sino que también produzcan salidas lingüísticas mediante un diálogo activo, alineándose así más con entornos prácticos. IION extiende la Navegación de Objetos por Instancia (ION) al permitir que los agentes consulten libremente a un oráculo en lenguaje natural mientras navegan. Basándonos en esta tarea, presentamos el benchmark VL-LN (Vision Language-Language Navigation), que proporciona un conjunto de datos de gran escala generado automáticamente y un protocolo de evaluación integral para entrenar y evaluar modelos de navegación habilitados para el diálogo. VL-LN comprende más de 41.000 trayectorias aumentadas con diálogo de largo horizonte para entrenamiento y un protocolo de evaluación automática con un oráculo capaz de responder a las consultas de los agentes. Utilizando este benchmark, entrenamos un modelo de navegación equipado con capacidades de diálogo y demostramos que logra mejoras significativas respecto a los modelos de referencia. Experimentos y análisis exhaustivos demuestran además la efectividad y confiabilidad de VL-LN para impulsar la investigación en navegación corporizada habilitada para el diálogo. Código y dataset: https://0309hws.github.io/VL-LN.github.io/
English
In most existing embodied navigation tasks, instructions are well-defined and unambiguous, such as instruction following and object searching. Under this idealized setting, agents are required solely to produce effective navigation outputs conditioned on vision and language inputs. However, real-world navigation instructions are often vague and ambiguous, requiring the agent to resolve uncertainty and infer user intent through active dialog. To address this gap, we propose Interactive Instance Object Navigation (IION), a task that requires agents not only to generate navigation actions but also to produce language outputs via active dialog, thereby aligning more closely with practical settings. IION extends Instance Object Navigation (ION) by allowing agents to freely consult an oracle in natural language while navigating. Building on this task, we present the Vision Language-Language Navigation (VL-LN) benchmark, which provides a large-scale, automatically generated dataset and a comprehensive evaluation protocol for training and assessing dialog-enabled navigation models. VL-LN comprises over 41k long-horizon dialog-augmented trajectories for training and an automatic evaluation protocol with an oracle capable of responding to agent queries. Using this benchmark, we train a navigation model equipped with dialog capabilities and show that it achieves significant improvements over the baselines. Extensive experiments and analyses further demonstrate the effectiveness and reliability of VL-LN for advancing research on dialog-enabled embodied navigation. Code and dataset: https://0309hws.github.io/VL-LN.github.io/