La génération vidéo parcimonieuse propulse la navigation vision-langage au-delà du champ de vision dans des environnements réels.
Sparse Video Generation Propels Real-World Beyond-the-View Vision-Language Navigation
February 5, 2026
papers.authors: Hai Zhang, Siqi Liang, Li Chen, Yuxian Li, Yukuan Xu, Yichao Zhong, Fu Zhang, Hongyang Li
cs.AI
papers.abstract
Pourquoi la navigation vision-langage doit-elle être liée à des instructions linguistiques détaillées et verbeuses ? Bien que ces détails facilitent la prise de décision, ils contredisent fondamentalement l'objectif de la navigation dans le monde réel. Idéalement, les agents devraient posséder l'autonomie nécessaire pour naviguer dans des environnements inconnus en se guidant uniquement sur des intentions simples et de haut niveau. Réaliser cette ambition introduit un défi redoutable : la navigation au-delà du champ de vision (BVN), où les agents doivent localiser des cibles distantes et invisibles sans guidance dense et étape par étape. Les méthodes existantes basées sur les grands modèles de langage (LLM), bien que compétentes pour suivre des instructions denses, souffrent souvent de comportements à courte vue en raison de leur dépendance à une supervision à court terme. Cependant, simplement étendre l'horizon de supervision déstabilise l'entraînement des LLM. Dans ce travail, nous identifions que les modèles de génération vidéo bénéficient intrinsèquement d'une supervision à long horizon pour s'aligner sur des instructions linguistiques, les rendant particulièrement adaptés aux tâches de BVN. Tirant parti de cette intuition, nous proposons d'introduire pour la première fois le modèle de génation vidéo dans ce domaine. Pourtant, la latence prohibitive pour générer des vidéos couvrant des dizaines de secondes rend le déploiement réel impraticable. Pour combler cet écart, nous proposons SparseVideoNav, réalisant l'inférence de trajectoire en moins d'une seconde guidée par un futur sparse généré couvrant un horizon de 20 secondes. Cela permet une accélération remarquable de 27x par rapport à la contrepartie non optimisée. Des expériences zero-shot extensives en conditions réelles démontrent que SparseVideoNav atteint un taux de réussite 2,5 fois supérieur à celui des LLM de pointe sur les tâches BVN et marque la première réalisation d'une telle capacité dans des scènes nocturnes difficiles.
English
Why must vision-language navigation be bound to detailed and verbose language instructions? While such details ease decision-making, they fundamentally contradict the goal for navigation in the real-world. Ideally, agents should possess the autonomy to navigate in unknown environments guided solely by simple and high-level intents. Realizing this ambition introduces a formidable challenge: Beyond-the-View Navigation (BVN), where agents must locate distant, unseen targets without dense and step-by-step guidance. Existing large language model (LLM)-based methods, though adept at following dense instructions, often suffer from short-sighted behaviors due to their reliance on short-horimzon supervision. Simply extending the supervision horizon, however, destabilizes LLM training. In this work, we identify that video generation models inherently benefit from long-horizon supervision to align with language instructions, rendering them uniquely suitable for BVN tasks. Capitalizing on this insight, we propose introducing the video generation model into this field for the first time. Yet, the prohibitive latency for generating videos spanning tens of seconds makes real-world deployment impractical. To bridge this gap, we propose SparseVideoNav, achieving sub-second trajectory inference guided by a generated sparse future spanning a 20-second horizon. This yields a remarkable 27x speed-up compared to the unoptimized counterpart. Extensive real-world zero-shot experiments demonstrate that SparseVideoNav achieves 2.5x the success rate of state-of-the-art LLM baselines on BVN tasks and marks the first realization of such capability in challenging night scenes.