VL-LN Bench: На пути к целевой навигации с длительным горизонтом планирования и активными диалогами
VL-LN Bench: Towards Long-horizon Goal-oriented Navigation with Active Dialogs
December 26, 2025
Авторы: Wensi Huang, Shaohao Zhu, Meng Wei, Jinming Xu, Xihui Liu, Hanqing Wang, Tai Wang, Feng Zhao, Jiangmiao Pang
cs.AI
Аннотация
В большинстве существующих задач навигации в физическом мире инструкции являются четкими и однозначными, например, следование инструкциям и поиск объектов. В этой идеализированной постановке от агентов требуется лишь вырабатывать эффективные навигационные действия на основе визуальных и языковых входных данных. Однако в реальном мире навигационные инструкции часто бывают размытыми и неоднозначными, что требует от агента разрешения неопределенности и вывода о намерениях пользователя посредством активного диалога. Чтобы восполнить этот пробел, мы предлагаем задачу Интерактивной навигации к конкретному объекту (Interactive Instance Object Navigation, IION), которая требует от агентов не только генерировать навигационные действия, но и производить языковые выходы через активный диалог, что больше соответствует практическим сценариям. IION расширяет задачу навигации к конкретному объекту (Instance Object Navigation, ION), позволяя агентам свободно консультироваться с оракулом на естественном языке во время навигации. Основываясь на этой задаче, мы представляем бенчмарк Vision Language-Language Navigation (VL-LN), который предоставляет крупномасштабный автоматически сгенерированный набор данных и комплексный протокол оценки для обучения и тестирования навигационных моделей с поддержкой диалога. VL-LN включает более 41 тыс. траекторий с расширенными диалогами для длительного горизонта для обучения и автоматический протокол оценки с оракулом, способным отвечать на запросы агента. Используя этот бенчмарк, мы обучили навигационную модель, оснащенную диалоговыми возможностями, и показали, что она достигает значительного улучшения по сравнению с базовыми методами. Многочисленные эксперименты и анализ дополнительно демонстрируют эффективность и надежность VL-LN для продвижения исследований в области навигации с поддержкой диалога. Код и набор данных: https://0309hws.github.io/VL-LN.github.io/
English
In most existing embodied navigation tasks, instructions are well-defined and unambiguous, such as instruction following and object searching. Under this idealized setting, agents are required solely to produce effective navigation outputs conditioned on vision and language inputs. However, real-world navigation instructions are often vague and ambiguous, requiring the agent to resolve uncertainty and infer user intent through active dialog. To address this gap, we propose Interactive Instance Object Navigation (IION), a task that requires agents not only to generate navigation actions but also to produce language outputs via active dialog, thereby aligning more closely with practical settings. IION extends Instance Object Navigation (ION) by allowing agents to freely consult an oracle in natural language while navigating. Building on this task, we present the Vision Language-Language Navigation (VL-LN) benchmark, which provides a large-scale, automatically generated dataset and a comprehensive evaluation protocol for training and assessing dialog-enabled navigation models. VL-LN comprises over 41k long-horizon dialog-augmented trajectories for training and an automatic evaluation protocol with an oracle capable of responding to agent queries. Using this benchmark, we train a navigation model equipped with dialog capabilities and show that it achieves significant improvements over the baselines. Extensive experiments and analyses further demonstrate the effectiveness and reliability of VL-LN for advancing research on dialog-enabled embodied navigation. Code and dataset: https://0309hws.github.io/VL-LN.github.io/