Разреженное видеогенерирование расширяет возможности навигации на основе зрения и языка за пределами видимой области в реальном мире.
Sparse Video Generation Propels Real-World Beyond-the-View Vision-Language Navigation
February 5, 2026
Авторы: Hai Zhang, Siqi Liang, Li Chen, Yuxian Li, Yukuan Xu, Yichao Zhong, Fu Zhang, Hongyang Li
cs.AI
Аннотация
Почему навигация на основе зрения и языка должна быть привязана к детальным и пространным языковым инструкциям? Хотя такие подробности облегчают принятие решений, они фундаментально противоречат цели навигации в реальном мире. В идеале агенты должны обладать автономией для навигации в незнакомых средах, руководствуясь исключительно простыми и высокоуровневыми намерениями. Реализация этой амбиции создает серьезную проблему: навигацию за пределами обзора (Beyond-the-View Navigation, BVN), где агенты должны находить удаленные, невидимые цели без плотного пошагового руководства. Существующие методы на основе больших языковых моделей (LLM), хотя и умеют следовать детальным инструкциям, часто страдают от близорукого поведения из-за их зависимости от краткосрочного контроля. Однако простое расширение горизонта контроля дестабилизирует обучение LLM. В данной работе мы выявляем, что модели генерации видео изначально выигрывают от долгосрочного контроля для согласования с языковыми инструкциями, что делает их особенно подходящими для задач BVN. Используя это наблюдение, мы предлагаем впервые ввести модель генерации видео в эту область. Тем не менее, запретительная задержка при генерации видео продолжительностью в десятки секунд делает развертывание в реальном мире непрактичным. Чтобы преодолеть этот разрыв, мы предлагаем SparseVideoNav, достигающий вывода траектории менее чем за секунду, руководствуясь сгенерированным разреженным представлением будущего на 20-секундном горизонте. Это дает впечатляющее 27-кратное ускорение по сравнению с неоптимизированным аналогом. Масштабные эксперименты с нулевым-shot переносом в реальном мире демонстрируют, что SparseVideoNav достигает в 2,5 раза большего уровня успеха, чем современные LLM-базlines в задачах BVN, и знаменует первую реализацию такой возможности в сложных ночных сценах.
English
Why must vision-language navigation be bound to detailed and verbose language instructions? While such details ease decision-making, they fundamentally contradict the goal for navigation in the real-world. Ideally, agents should possess the autonomy to navigate in unknown environments guided solely by simple and high-level intents. Realizing this ambition introduces a formidable challenge: Beyond-the-View Navigation (BVN), where agents must locate distant, unseen targets without dense and step-by-step guidance. Existing large language model (LLM)-based methods, though adept at following dense instructions, often suffer from short-sighted behaviors due to their reliance on short-horimzon supervision. Simply extending the supervision horizon, however, destabilizes LLM training. In this work, we identify that video generation models inherently benefit from long-horizon supervision to align with language instructions, rendering them uniquely suitable for BVN tasks. Capitalizing on this insight, we propose introducing the video generation model into this field for the first time. Yet, the prohibitive latency for generating videos spanning tens of seconds makes real-world deployment impractical. To bridge this gap, we propose SparseVideoNav, achieving sub-second trajectory inference guided by a generated sparse future spanning a 20-second horizon. This yields a remarkable 27x speed-up compared to the unoptimized counterpart. Extensive real-world zero-shot experiments demonstrate that SparseVideoNav achieves 2.5x the success rate of state-of-the-art LLM baselines on BVN tasks and marks the first realization of such capability in challenging night scenes.