スパースビデオ生成が実世界の視野外ビジョン言語ナビゲーションを推進
Sparse Video Generation Propels Real-World Beyond-the-View Vision-Language Navigation
February 5, 2026
著者: Hai Zhang, Siqi Liang, Li Chen, Yuxian Li, Yukuan Xu, Yichao Zhong, Fu Zhang, Hongyang Li
cs.AI
要旨
視覚言語ナビゲーションは、なぜ詳細かつ冗長な言語指示に縛られなければならないのか?こうした詳細情報は意思決定を容易にするが、実世界でのナビゲーションという本来の目的とは根本的に矛盾している。理想的には、エージェントは単純で高次元の意図のみに導かれて未知の環境を自律航行できるべきである。この野望を実現するには、極めて困難な課題、すなわち「視界を超えたナビゲーション(BVN)」に立ち向かわねばならない。BVNでは、エージェントは密なステップバイステップの指示なしに、遠方の未視認ターゲットを特定しなければならない。大規模言語モデル(LLM)ベースの既存手法は、密な指示の追従には長けるが、短視野的な監督に依存するため、短絡的な行動に陥りがちである。しかし、単に監督の時間範囲を拡大すると、LLMの訓練が不安定になる。本研究では、ビデオ生成モデルが本質的に、言語指示との整合性を保つための長期的な監督から恩恵を受けており、これがBVNタスクに特に適していることを明らかにする。この知見を活かし、我々はビデオ生成モデルをこの分野に初めて導入することを提案する。しかし、数十秒に及ぶビデオを生成するには遅延が大きすぎるため、実世界への展開は非現実的である。この隔たりを埋めるため、我々はSparseVideoNavを提案する。これは20秒先までの時間範囲をカバーする疎な未来ビデオを生成して導くことで、1秒未満の軌道推論を実現する。これにより、最適化前と比較して驚異的な27倍の高速化を達成した。大規模な実世界ゼロショット実験により、SparseVideoNavがBVNタスクにおいて最新のLLMベースラインの2.5倍の成功率を達成し、困難な夜間環境においてもこの能力を初めて実現したことが実証された。
English
Why must vision-language navigation be bound to detailed and verbose language instructions? While such details ease decision-making, they fundamentally contradict the goal for navigation in the real-world. Ideally, agents should possess the autonomy to navigate in unknown environments guided solely by simple and high-level intents. Realizing this ambition introduces a formidable challenge: Beyond-the-View Navigation (BVN), where agents must locate distant, unseen targets without dense and step-by-step guidance. Existing large language model (LLM)-based methods, though adept at following dense instructions, often suffer from short-sighted behaviors due to their reliance on short-horimzon supervision. Simply extending the supervision horizon, however, destabilizes LLM training. In this work, we identify that video generation models inherently benefit from long-horizon supervision to align with language instructions, rendering them uniquely suitable for BVN tasks. Capitalizing on this insight, we propose introducing the video generation model into this field for the first time. Yet, the prohibitive latency for generating videos spanning tens of seconds makes real-world deployment impractical. To bridge this gap, we propose SparseVideoNav, achieving sub-second trajectory inference guided by a generated sparse future spanning a 20-second horizon. This yields a remarkable 27x speed-up compared to the unoptimized counterpart. Extensive real-world zero-shot experiments demonstrate that SparseVideoNav achieves 2.5x the success rate of state-of-the-art LLM baselines on BVN tasks and marks the first realization of such capability in challenging night scenes.