La Generación de Video Escaso Impulsa la Navegación Visión-Lenguaje Más Allá del Campo Visual en Entornos Reales
Sparse Video Generation Propels Real-World Beyond-the-View Vision-Language Navigation
February 5, 2026
Autores: Hai Zhang, Siqi Liang, Li Chen, Yuxian Li, Yukuan Xu, Yichao Zhong, Fu Zhang, Hongyang Li
cs.AI
Resumen
¿Por qué debe estar la navegación visión-lenguaje ligada a instrucciones lingüísticas detalladas y verbosas? Si bien tales detalles facilitan la toma de decisiones, contradicen fundamentalmente el objetivo de la navegación en el mundo real. Idealmente, los agentes deberían poseer la autonomía para navegar en entornos desconocidos guiados únicamente por intenciones simples y de alto nivel. Materializar esta ambición introduce un desafío formidable: la Navegación Más Allá del Campo Visual (BVN), donde los agentes deben localizar objetivos distantes y no vistos sin una guía densa y paso a paso. Los métodos existentes basados en modelos de lenguaje grandes (LLM), aunque expertos en seguir instrucciones densas, a menudo adolecen de comportamientos miopes debido a su dependencia de una supervisión de corto horizonte. Sin embargo, simplemente extender el horizonte de supervisión desestabiliza el entrenamiento de los LLM. En este trabajo, identificamos que los modelos de generación de video se benefician inherentemente de una supervisión de largo horizonte para alinearse con las instrucciones lingüísticas, lo que los hace singularmente adecuados para las tareas de BVN. Aprovechando esta perspicacia, proponemos introducir el modelo de generación de video en este campo por primera vez. No obstante, la latencia prohibitiva para generar videos que abarcan decenas de segundos hace inviable su implementación en el mundo real. Para salvar esta brecha, proponemos SparseVideoNav, logrando una inferencia de trayectoria en menos de un segundo guiada por un futuro disperso generado que abarca un horizonte de 20 segundos. Esto produce una notable aceleración de 27x en comparación con su contraparte no optimizada. Experimentos exhaustivos de cero-shot en el mundo real demuestran que SparseVideoNav alcanza una tasa de éxito 2.5 veces mayor que los baselines LLM de vanguardia en tareas de BVN y marca la primera realización de dicha capacidad en escenas nocturnas desafiantes.
English
Why must vision-language navigation be bound to detailed and verbose language instructions? While such details ease decision-making, they fundamentally contradict the goal for navigation in the real-world. Ideally, agents should possess the autonomy to navigate in unknown environments guided solely by simple and high-level intents. Realizing this ambition introduces a formidable challenge: Beyond-the-View Navigation (BVN), where agents must locate distant, unseen targets without dense and step-by-step guidance. Existing large language model (LLM)-based methods, though adept at following dense instructions, often suffer from short-sighted behaviors due to their reliance on short-horimzon supervision. Simply extending the supervision horizon, however, destabilizes LLM training. In this work, we identify that video generation models inherently benefit from long-horizon supervision to align with language instructions, rendering them uniquely suitable for BVN tasks. Capitalizing on this insight, we propose introducing the video generation model into this field for the first time. Yet, the prohibitive latency for generating videos spanning tens of seconds makes real-world deployment impractical. To bridge this gap, we propose SparseVideoNav, achieving sub-second trajectory inference guided by a generated sparse future spanning a 20-second horizon. This yields a remarkable 27x speed-up compared to the unoptimized counterpart. Extensive real-world zero-shot experiments demonstrate that SparseVideoNav achieves 2.5x the success rate of state-of-the-art LLM baselines on BVN tasks and marks the first realization of such capability in challenging night scenes.