VL-LN Bench:能動的対話による長期的目標指向ナビゲーションに向けて
VL-LN Bench: Towards Long-horizon Goal-oriented Navigation with Active Dialogs
December 26, 2025
著者: Wensi Huang, Shaohao Zhu, Meng Wei, Jinming Xu, Xihui Liu, Hanqing Wang, Tai Wang, Feng Zhao, Jiangmiao Pang
cs.AI
要旨
既存のエンボディードナビゲーション課題の多くでは、指示追従や物体探索のように、指示が明確で曖昧さのないものが主流である。この理想化された設定下では、エージェントは視覚と言語の入力に条件付けられた効果的なナビゲーション出力を生成することのみが要求される。しかし、実世界のナビゲーション指示は曖昧で多義的な場合が多く、エージェントは不確実性を解決し、能動的対話を通じてユーザーの意図を推論する必要がある。この隔たりを埋めるため、本論文は対話型インスタンス物体ナビゲーション(IION)を提案する。この課題では、エージェントはナビゲーション行動を生成するだけでなく、能動的対話による言語出力も行う必要があり、実践的な設定により近い。IIONはインスタンス物体ナビゲーション(ION)を拡張し、エージェントがナビゲーション中に自然言語でオラクルに自由に問い合わせることを可能とする。この課題に基づき、我々は大規模な自動生成データセットと、対話機能付きナビゲーションモデルの学習・評価のための包括的評価プロトコルを提供するVL-LNベンチマークを提案する。VL-LNは学習用の4万1千以上の長距離対話補完軌道を含み、エージェントの問い合わせに応答可能なオラクルを備えた自動評価プロトコルを有する。本ベンチマークを用いて、対話機能を備えたナビゲーションモデルを学習し、ベースラインを大幅に上回る性能を示す。詳細な実験と分析により、VL-LNが対話機能付きエンボディードナビゲーション研究の発展に有効かつ信頼性の高い枠組みであることを実証する。コードとデータセット:https://0309hws.github.io/VL-LN.github.io/
English
In most existing embodied navigation tasks, instructions are well-defined and unambiguous, such as instruction following and object searching. Under this idealized setting, agents are required solely to produce effective navigation outputs conditioned on vision and language inputs. However, real-world navigation instructions are often vague and ambiguous, requiring the agent to resolve uncertainty and infer user intent through active dialog. To address this gap, we propose Interactive Instance Object Navigation (IION), a task that requires agents not only to generate navigation actions but also to produce language outputs via active dialog, thereby aligning more closely with practical settings. IION extends Instance Object Navigation (ION) by allowing agents to freely consult an oracle in natural language while navigating. Building on this task, we present the Vision Language-Language Navigation (VL-LN) benchmark, which provides a large-scale, automatically generated dataset and a comprehensive evaluation protocol for training and assessing dialog-enabled navigation models. VL-LN comprises over 41k long-horizon dialog-augmented trajectories for training and an automatic evaluation protocol with an oracle capable of responding to agent queries. Using this benchmark, we train a navigation model equipped with dialog capabilities and show that it achieves significant improvements over the baselines. Extensive experiments and analyses further demonstrate the effectiveness and reliability of VL-LN for advancing research on dialog-enabled embodied navigation. Code and dataset: https://0309hws.github.io/VL-LN.github.io/