ChatPaper.aiChatPaper

희소 비디오 생성이 실세계 초월 시점 비전-언어 내비게이션을 주도한다

Sparse Video Generation Propels Real-World Beyond-the-View Vision-Language Navigation

February 5, 2026
저자: Hai Zhang, Siqi Liang, Li Chen, Yuxian Li, Yukuan Xu, Yichao Zhong, Fu Zhang, Hongyang Li
cs.AI

초록

시각-언어 내비게이션은 왜 세부적이고 장황한 언어 지시에 얽매여야 할까? 이러한 세부 사항은 의사 결정을 용이하게 하지만, 실세계 내비게이션의 근본적인 목표와 상충합니다. 이상적으로는 에이전트가 단순하고 고수준의 의도만을 지시받아 미지의 환경을 자율적으로 탐색할 수 있어야 합니다. 이러한 비전을 실현하기 위해서는 '시야 밖 내비게이션(BVN)'이라는 난제가 도입됩니다. BVN에서는 에자전트가 빽빽하고 단계적인 지도 없이 먼 거리에 있으며 보이지 않는 목표물을 찾아야 합니다. 기존의 대규모 언어 모델(LLM) 기반 방법론은 세부 지시를 잘 따르는 데 능숙하지만, 단기적인 감독에 의존하기 때문에 근시안적인 행동을 보이는 경우가 많습니다. 그러나 단순히 감독 범위를 확장하면 LLM 학습이 불안정해집니다. 본 연구에서는 비디오 생성 모델이 언어 지시와의 정렬을 위해 본질적으로 장기적인 감독의 이점을 얻어 BVN 작업에 특히 적합함을 규명합니다. 이러한 통찰을 바탕으로, 우리는 이 분야에 최초로 비디오 생성 모델을 도입합니다. 그러나 수십 초에 달하는 비디오를 생성하는 데 따른 과도한 지연 시간으로 인해 실세계 적용은 불가능에 가깝습니다. 이러한 격차를 해결하기 위해 우리는 SparseVideoNav를 제안합니다. 이는 20초 수준의 생성된 희소 미래 예측을 안내로 삼아 초 단위 궤적 추론을 달성합니다. 이는 최적화되지 않은 대비책에 비해 무려 27배의 속도 향상을 가져옵니다. 폭넓은 실세계 제로샷 실험을 통해 SparseVideoNav가 BVN 작업에서 최첨단 LLM 기준선 대비 2.5배의 성공률을 달성하며, 특히 어려운 야간 환경에서 이러한 능력이 최초로 실현됨을 입증합니다.
English
Why must vision-language navigation be bound to detailed and verbose language instructions? While such details ease decision-making, they fundamentally contradict the goal for navigation in the real-world. Ideally, agents should possess the autonomy to navigate in unknown environments guided solely by simple and high-level intents. Realizing this ambition introduces a formidable challenge: Beyond-the-View Navigation (BVN), where agents must locate distant, unseen targets without dense and step-by-step guidance. Existing large language model (LLM)-based methods, though adept at following dense instructions, often suffer from short-sighted behaviors due to their reliance on short-horimzon supervision. Simply extending the supervision horizon, however, destabilizes LLM training. In this work, we identify that video generation models inherently benefit from long-horizon supervision to align with language instructions, rendering them uniquely suitable for BVN tasks. Capitalizing on this insight, we propose introducing the video generation model into this field for the first time. Yet, the prohibitive latency for generating videos spanning tens of seconds makes real-world deployment impractical. To bridge this gap, we propose SparseVideoNav, achieving sub-second trajectory inference guided by a generated sparse future spanning a 20-second horizon. This yields a remarkable 27x speed-up compared to the unoptimized counterpart. Extensive real-world zero-shot experiments demonstrate that SparseVideoNav achieves 2.5x the success rate of state-of-the-art LLM baselines on BVN tasks and marks the first realization of such capability in challenging night scenes.
PDF101February 14, 2026