ChatPaper.aiChatPaper

Sparse Video-Generierung treibt echtweltliche Beyond-the-View Vision-Language-Navigation voran

Sparse Video Generation Propels Real-World Beyond-the-View Vision-Language Navigation

February 5, 2026
papers.authors: Hai Zhang, Siqi Liang, Li Chen, Yuxian Li, Yukuan Xu, Yichao Zhong, Fu Zhang, Hongyang Li
cs.AI

papers.abstract

Warum muss die visuell-sprachliche Navigation an detaillierte und umfangreiche Sprachinstruktionen gebunden sein? Während solche Details die Entscheidungsfindung erleichtern, widersprechen sie grundlegend dem Ziel der Navigation in der realen Welt. Im Idealfall sollten Agenten die Autonomie besitzen, sich in unbekannten Umgebungen nur von einfachen, hochleveligen Absichten leiten zu lassen. Die Verwirklichung dieses Ziels stellt eine gewaltige Herausforderung dar: Navigation über den Sichtbereich hinaus (Beyond-the-View Navigation, BVN), bei der Agenten entfernte, nicht sichtbare Ziele ohne dichte, schrittweise Anweisungen lokalisieren müssen. Bestehende Methoden auf Basis großer Sprachmodelle (Large Language Models, LLMs), obwohl geschickt im Befolgen dichter Instruktionen, neigen oft zu kurzsichtigem Verhalten aufgrund ihrer Abhängigkeit von Kurzzeithorizont-Aufsicht. Eine einfache Ausweitung des Aufsichtshorizonts destabilisiert jedoch das LLM-Training. In dieser Arbeit stellen wir fest, dass Videogenerierungsmodelle inhärent von einer Langzeithorizont-Aufsicht profitieren, um sich mit Sprachinstruktionen in Einklang zu bringen, was sie einzigartig für BVN-Aufgaben geeignet macht. Gestützt auf diese Erkenntnis schlagen wir vor, das Videogenerierungsmodell erstmals in diesem Bereich einzusetzen. Doch die prohibitive Latenz bei der Generierung von Videos über mehrere zehn Sekunden macht einen praktischen Einsatz in der realen Welt unmöglich. Um diese Lücke zu schließen, schlagen wir SparseVideoNav vor, das Trajektorieninferenz im Subsekundenbereich ermöglicht, geleitet von einer generierten, spärlichen Zukunftsvorschau über einen 20-Sekunden-Horizont. Dies führt zu einer bemerkenswerten 27-fachen Beschleunigung im Vergleich zum nicht optimierten Gegenstück. Umfangreiche Zero-Shot-Experimente in der realen Welt zeigen, dass SparseVideoNav auf BVN-Aufgaben eine 2,5-fach höhere Erfolgsquote als state-of-the-art LLM-Baselines erreicht und erstmals solche Fähigkeiten in anspruchsvollen Nachtszenen realisiert.
English
Why must vision-language navigation be bound to detailed and verbose language instructions? While such details ease decision-making, they fundamentally contradict the goal for navigation in the real-world. Ideally, agents should possess the autonomy to navigate in unknown environments guided solely by simple and high-level intents. Realizing this ambition introduces a formidable challenge: Beyond-the-View Navigation (BVN), where agents must locate distant, unseen targets without dense and step-by-step guidance. Existing large language model (LLM)-based methods, though adept at following dense instructions, often suffer from short-sighted behaviors due to their reliance on short-horimzon supervision. Simply extending the supervision horizon, however, destabilizes LLM training. In this work, we identify that video generation models inherently benefit from long-horizon supervision to align with language instructions, rendering them uniquely suitable for BVN tasks. Capitalizing on this insight, we propose introducing the video generation model into this field for the first time. Yet, the prohibitive latency for generating videos spanning tens of seconds makes real-world deployment impractical. To bridge this gap, we propose SparseVideoNav, achieving sub-second trajectory inference guided by a generated sparse future spanning a 20-second horizon. This yields a remarkable 27x speed-up compared to the unoptimized counterpart. Extensive real-world zero-shot experiments demonstrate that SparseVideoNav achieves 2.5x the success rate of state-of-the-art LLM baselines on BVN tasks and marks the first realization of such capability in challenging night scenes.
PDF101February 14, 2026