ChatPaper.aiChatPaper

VL-LN Bench: Auf dem Weg zur langfristigen zielorientierten Navigation mit aktiven Dialogen

VL-LN Bench: Towards Long-horizon Goal-oriented Navigation with Active Dialogs

December 26, 2025
papers.authors: Wensi Huang, Shaohao Zhu, Meng Wei, Jinming Xu, Xihui Liu, Hanqing Wang, Tai Wang, Feng Zhao, Jiangmiao Pang
cs.AI

papers.abstract

In den meisten bestehenden embodied Navigation-Aufgaben sind Anweisungen klar definiert und eindeutig, wie beispielsweise bei Instruktionsbefolgung und Objektsuche. In diesem idealisierten Setting müssen Agenten lediglich effektive Navigationsausgaben auf der Grundlage von visuellen und sprachlichen Eingaben erzeugen. In der realen Welt sind Navigationsanweisungen jedoch oft vage und mehrdeutig, was vom Agenten verlangt, Unsicherheiten aufzulösen und die Benutzerabsicht durch aktiven Dialog zu erschließen. Um diese Lücke zu schließen, schlagen wir Interactive Instance Object Navigation (IION) vor, eine Aufgabe, die von Agenten nicht nur die Generierung von Navigationsaktionen, sondern auch die Erzeugung von Sprachausgaben über aktiven Dialog verlangt und sich somit stärker an praktischen Gegebenheiten orientiert. IION erweitert Instance Object Navigation (ION), indem es Agenten ermöglicht, während der Navigation frei ein Orakel in natürlicher Sprache zu konsultieren. Aufbauend auf dieser Aufgabe stellen wir den Vision Language-Language Navigation (VL-LN) Benchmark vor, der einen großen, automatisch generierten Datensatz und ein umfassendes Evaluierungsprotokoll für das Training und die Bewertung von dialogfähigen Navigationsmodellen bereitstellt. VL-LN umfasst über 41.000 dialog-angereicherte Trajektorien mit langem Zeithorizont für das Training sowie ein automatisches Evaluierungsprotokoll mit einem Orakel, das auf Anfragen des Agenten antworten kann. Mithilfe dieses Benchmarks trainieren wir ein Navigationsmodell mit Dialogfähigkeiten und zeigen, dass es signifikante Verbesserungen gegenüber den Baseline-Modellen erzielt. Umfangreiche Experimente und Analysen demonstrieren weiterhin die Effektivität und Zuverlässigkeit von VL-LN für die Weiterentwicklung der Forschung zu dialogfähiger embodied Navigation. Code und Datensatz: https://0309hws.github.io/VL-LN.github.io/
English
In most existing embodied navigation tasks, instructions are well-defined and unambiguous, such as instruction following and object searching. Under this idealized setting, agents are required solely to produce effective navigation outputs conditioned on vision and language inputs. However, real-world navigation instructions are often vague and ambiguous, requiring the agent to resolve uncertainty and infer user intent through active dialog. To address this gap, we propose Interactive Instance Object Navigation (IION), a task that requires agents not only to generate navigation actions but also to produce language outputs via active dialog, thereby aligning more closely with practical settings. IION extends Instance Object Navigation (ION) by allowing agents to freely consult an oracle in natural language while navigating. Building on this task, we present the Vision Language-Language Navigation (VL-LN) benchmark, which provides a large-scale, automatically generated dataset and a comprehensive evaluation protocol for training and assessing dialog-enabled navigation models. VL-LN comprises over 41k long-horizon dialog-augmented trajectories for training and an automatic evaluation protocol with an oracle capable of responding to agent queries. Using this benchmark, we train a navigation model equipped with dialog capabilities and show that it achieves significant improvements over the baselines. Extensive experiments and analyses further demonstrate the effectiveness and reliability of VL-LN for advancing research on dialog-enabled embodied navigation. Code and dataset: https://0309hws.github.io/VL-LN.github.io/
PDF81December 31, 2025