VL-LN Bench: Rumo à Navegação Orientada a Metas de Longo Horizonte com Diálogos Ativos

Resumo

Na maioria das tarefas existentes de navegação corporificada, as instruções são bem definidas e inequívocas, como seguir instruções e buscar objetos. Nesse cenário idealizado, os agentes precisam apenas produzir saídas de navegação eficazes condicionadas a entradas visuais e linguísticas. No entanto, as instruções de navegação do mundo real são frequentemente vagas e ambíguas, exigindo que o agente resolva incertezas e infira a intenção do usuário por meio de diálogo ativo. Para preencher essa lacuna, propomos a Navegação por Objeto de Instância Interativa (IION), uma tarefa que exige que os agentes não apenas gerem ações de navegação, mas também produzam saídas linguísticas via diálogo ativo, alinhando-se mais de perto com configurações práticas. A IION estende a Navegação por Objeto de Instância (ION) permitindo que os agentes consultem livremente um oráculo em linguagem natural durante a navegação. Com base nessa tarefa, apresentamos o benchmark Visão Linguagem-Linguagem de Navegação (VL-LN), que fornece um conjunto de dados automatizado em larga escala e um protocolo abrangente de avaliação para treinar e avaliar modelos de navegação habilitados para diálogo. O VL-LN compreende mais de 41 mil trajetórias de longo prazo aumentadas com diálogo para treinamento e um protocolo de avaliação automática com um oráculo capaz de responder a consultas do agente. Usando esse benchmark, treinamos um modelo de navegação equipado com capacidades de diálogo e mostramos que ele alcança melhorias significativas em relação às linhas de base. Experimentos extensivos e análises demonstram ainda a eficácia e confiabilidade do VL-LN para avançar a pesquisa em navegação corporificada habilitada para diálogo. Código e conjunto de dados: https://0309hws.github.io/VL-LN.github.io/

English

In most existing embodied navigation tasks, instructions are well-defined and unambiguous, such as instruction following and object searching. Under this idealized setting, agents are required solely to produce effective navigation outputs conditioned on vision and language inputs. However, real-world navigation instructions are often vague and ambiguous, requiring the agent to resolve uncertainty and infer user intent through active dialog. To address this gap, we propose Interactive Instance Object Navigation (IION), a task that requires agents not only to generate navigation actions but also to produce language outputs via active dialog, thereby aligning more closely with practical settings. IION extends Instance Object Navigation (ION) by allowing agents to freely consult an oracle in natural language while navigating. Building on this task, we present the Vision Language-Language Navigation (VL-LN) benchmark, which provides a large-scale, automatically generated dataset and a comprehensive evaluation protocol for training and assessing dialog-enabled navigation models. VL-LN comprises over 41k long-horizon dialog-augmented trajectories for training and an automatic evaluation protocol with an oracle capable of responding to agent queries. Using this benchmark, we train a navigation model equipped with dialog capabilities and show that it achieves significant improvements over the baselines. Extensive experiments and analyses further demonstrate the effectiveness and reliability of VL-LN for advancing research on dialog-enabled embodied navigation. Code and dataset: https://0309hws.github.io/VL-LN.github.io/