La generazione video sparsa favorisce la navigazione visione-linguaggio oltre il campo visivo nel mondo reale

Abstract

Perché la navigazione visione-linguaggio deve essere vincolata a istruzioni linguistiche dettagliate e verbose? Sebbene tali dettagli facilitino il processo decisionale, contraddicono fondamentalmente l'obiettivo della navigazione nel mondo reale. Idealmente, gli agenti dovrebbero possedere l'autonomia di navigare in ambienti sconosciuti guidati unicamente da intenzioni semplici e di alto livello. Realizzare questa ambizione introduce una sfida formidabile: la Navigazione Oltre la Vista (Beyond-the-View Navigation, BVN), in cui gli agenti devono localizzare target distanti e non visibili senza una guida densa e passo-passo. I metodi esistenti basati su grandi modelli linguistici (LLM), sebbene abili nel seguire istruzioni dense, spesso soffrono di comportamenti miopi a causa della loro dipendenza da una supervisione a breve orizzonte. Tuttavia, estendere semplicemente l'orizzonte di supervisione destabilizza l'addestramento degli LLM. In questo lavoro, identifichiamo come i modelli di generazione video traggano intrinsecamente beneficio da una supervisione a lungo orizzonte per allinearsi alle istruzioni linguistiche, rendendoli particolarmente adatti per i compiti di BVN. Sfruttando questa intuizione, proponiamo di introdurre per la prima volta il modello di generazione video in questo campo. Tuttavia, la latenza proibitiva per generare video della durata di decine di secondi rende impraticabile un dispiegamento nel mondo reale. Per colmare questa lacuna, proponiamo SparseVideoNav, che raggiunge un'inferenza di traiettoria in meno di un secondo guidata da un futuro sparso generato che copre un orizzonte di 20 secondi. Ciò si traduce in un notevole aumento di velocità di 27 volte rispetto alla controparte non ottimizzata. Esperimenti zero-shot estensivi nel mondo reale dimostrano che SparseVideoNav raggiunge un tasso di successo 2,5 volte superiore rispetto ai migliori baseline basati su LLM nei compiti di BVN e segna la prima realizzazione di tale capacità in scenari notturni impegnativi.

English

Why must vision-language navigation be bound to detailed and verbose language instructions? While such details ease decision-making, they fundamentally contradict the goal for navigation in the real-world. Ideally, agents should possess the autonomy to navigate in unknown environments guided solely by simple and high-level intents. Realizing this ambition introduces a formidable challenge: Beyond-the-View Navigation (BVN), where agents must locate distant, unseen targets without dense and step-by-step guidance. Existing large language model (LLM)-based methods, though adept at following dense instructions, often suffer from short-sighted behaviors due to their reliance on short-horimzon supervision. Simply extending the supervision horizon, however, destabilizes LLM training. In this work, we identify that video generation models inherently benefit from long-horizon supervision to align with language instructions, rendering them uniquely suitable for BVN tasks. Capitalizing on this insight, we propose introducing the video generation model into this field for the first time. Yet, the prohibitive latency for generating videos spanning tens of seconds makes real-world deployment impractical. To bridge this gap, we propose SparseVideoNav, achieving sub-second trajectory inference guided by a generated sparse future spanning a 20-second horizon. This yields a remarkable 27x speed-up compared to the unoptimized counterpart. Extensive real-world zero-shot experiments demonstrate that SparseVideoNav achieves 2.5x the success rate of state-of-the-art LLM baselines on BVN tasks and marks the first realization of such capability in challenging night scenes.

La generazione video sparsa favorisce la navigazione visione-linguaggio oltre il campo visivo nel mondo reale

Sparse Video Generation Propels Real-World Beyond-the-View Vision-Language Navigation

Abstract

Support