Geração Esparsa de Vídeo Impulsiona Navegação Visão-Linguagem Além do Campo Visual no Mundo Real

Resumo

Por que a navegação visão-linguagem deve estar vinculada a instruções linguísticas detalhadas e verbosas? Embora tais detalhes facilitem a tomada de decisões, eles contradizem fundamentalmente o objetivo da navegação no mundo real. Idealmente, os agentes devem possuir autonomia para navegar em ambientes desconhecidos guiados apenas por intenções simples e de alto nível. Realizar essa ambição introduz um desafio formidável: a Navegação Além do Campo Visual (BVN), onde os agentes devem localizar alvos distantes e não vistos sem orientação densa e passo a passo. Os métodos existentes baseados em modelos de linguagem grande (LLM), embora sejam habilidosos em seguir instruções densas, frequentemente sofrem de comportamentos míopes devido à sua dependência de supervisão de curto prazo. No entanto, simplesmente estender o horizonte de supervisão desestabiliza o treinamento de LLMs. Neste trabalho, identificamos que os modelos de geração de vídeo inerentemente se beneficiam da supervisão de longo prazo para se alinhar com instruções linguísticas, tornando-os singularmente adequados para tarefas de BVN. Capitalizando essa percepção, propomos introduzir o modelo de geração de vídeo neste campo pela primeira vez. No entanto, a latência proibitiva para gerar vídeos com duração de dezenas de segundos torna a implantação no mundo real impraticável. Para preencher essa lacuna, propomos o SparseVideoNav, alcançando inferência de trajetória em menos de um segundo guiada por um futuro esparso gerado abrangendo um horizonte de 20 segundos. Isso resulta em uma notável aceleração de 27x em comparação com a contraparte não otimizada. Experimentos extensivos de mundo real *zero-shot* demonstram que o SparseVideoNav alcança 2,5x a taxa de sucesso dos melhores métodos baseados em LLM em tarefas de BVN e marca a primeira realização de tal capacidade em cenas noturnas desafiadoras.

English

Why must vision-language navigation be bound to detailed and verbose language instructions? While such details ease decision-making, they fundamentally contradict the goal for navigation in the real-world. Ideally, agents should possess the autonomy to navigate in unknown environments guided solely by simple and high-level intents. Realizing this ambition introduces a formidable challenge: Beyond-the-View Navigation (BVN), where agents must locate distant, unseen targets without dense and step-by-step guidance. Existing large language model (LLM)-based methods, though adept at following dense instructions, often suffer from short-sighted behaviors due to their reliance on short-horimzon supervision. Simply extending the supervision horizon, however, destabilizes LLM training. In this work, we identify that video generation models inherently benefit from long-horizon supervision to align with language instructions, rendering them uniquely suitable for BVN tasks. Capitalizing on this insight, we propose introducing the video generation model into this field for the first time. Yet, the prohibitive latency for generating videos spanning tens of seconds makes real-world deployment impractical. To bridge this gap, we propose SparseVideoNav, achieving sub-second trajectory inference guided by a generated sparse future spanning a 20-second horizon. This yields a remarkable 27x speed-up compared to the unoptimized counterpart. Extensive real-world zero-shot experiments demonstrate that SparseVideoNav achieves 2.5x the success rate of state-of-the-art LLM baselines on BVN tasks and marks the first realization of such capability in challenging night scenes.

Geração Esparsa de Vídeo Impulsiona Navegação Visão-Linguagem Além do Campo Visual no Mundo Real

Sparse Video Generation Propels Real-World Beyond-the-View Vision-Language Navigation

Resumo

Support