ChatPaper.aiChatPaper

VL-LN 벤치: 능동적 대화를 통한 장기 목표 지향 네비게이션을 향하여

VL-LN Bench: Towards Long-horizon Goal-oriented Navigation with Active Dialogs

December 26, 2025
저자: Wensi Huang, Shaohao Zhu, Meng Wei, Jinming Xu, Xihui Liu, Hanqing Wang, Tai Wang, Feng Zhao, Jiangmiao Pang
cs.AI

초록

기존 대부분의 구체화된 내비게이션 과제에서 지시문은 지시 따르기나 객체 탐색과 같이 명확하고 모호함이 없는 경우가 많습니다. 이러한 이상화된 설정 하에서 에이전트는 시각 및 언어 입력에 조건화된 효과적인 내비게이션 출력을 생성하는 것만 요구됩니다. 그러나 실제 세계의 내비게이션 지시문은 종종 모호하고 애매하여, 에이전트가 능동적 대화를 통해 불확실성을 해결하고 사용자 의도를 추론해야 합니다. 이러한 격차를 해결하기 위해 우리는 대화 가능 내비게이션 연구를 위한 Vision Language-Language Navigation(VL-LN) 벤치마크를 소개합니다. VL-LN은 에이전트가 내비게이션 중 자연어로 오라클에 자유롭게 문의할 수 있도록 하는 Interactive Instance Object Navigation(IION) 과제를 기반으로 합니다. IION은 에이전트가 내비게이션 행동을 생성할 뿐만 아니라 능동적 대화를 통해 언어 출력을 생성해야 하므로 실제 설정에 더 가깝게 정렬됩니다. 우리는 이 과제를 위해 대규모 자동 생성 데이터셋과 에이전트 질의에 응답 가능한 오라클을 포함한 종합적 평가 프로토콜을 제공합니다. VL-LN은 훈련을 위한 41,000개 이상의 장기간 대화 증강 경로와 에이전트 질문에 답변할 수 있는 오라클을 통한 자동 평가 프로토콜로 구성됩니다. 이 벤치마크를 사용하여 우리는 대화 기능을 갖춘 내비게이션 모델을 훈련시키고, 이 모델이 기준 모델 대비 상당한 성능 향상을 달성함을 보입니다. 광범위한 실험과 분석을 통해 VL-LN이 대화 가능 구체화 내비게이션 연구 발전에 대한 효과성과 신뢰성을 추가로 입증합니다. 코드와 데이터셋: https://0309hws.github.io/VL-LN.github.io/
English
In most existing embodied navigation tasks, instructions are well-defined and unambiguous, such as instruction following and object searching. Under this idealized setting, agents are required solely to produce effective navigation outputs conditioned on vision and language inputs. However, real-world navigation instructions are often vague and ambiguous, requiring the agent to resolve uncertainty and infer user intent through active dialog. To address this gap, we propose Interactive Instance Object Navigation (IION), a task that requires agents not only to generate navigation actions but also to produce language outputs via active dialog, thereby aligning more closely with practical settings. IION extends Instance Object Navigation (ION) by allowing agents to freely consult an oracle in natural language while navigating. Building on this task, we present the Vision Language-Language Navigation (VL-LN) benchmark, which provides a large-scale, automatically generated dataset and a comprehensive evaluation protocol for training and assessing dialog-enabled navigation models. VL-LN comprises over 41k long-horizon dialog-augmented trajectories for training and an automatic evaluation protocol with an oracle capable of responding to agent queries. Using this benchmark, we train a navigation model equipped with dialog capabilities and show that it achieves significant improvements over the baselines. Extensive experiments and analyses further demonstrate the effectiveness and reliability of VL-LN for advancing research on dialog-enabled embodied navigation. Code and dataset: https://0309hws.github.io/VL-LN.github.io/
PDF81December 31, 2025