Sparse Video-generatie Bevordert Real-World Beyond-the-View Visie-Taal Navigatie

Samenvatting

Waarom moet vision-language navigation gebonden zijn aan gedetailleerde en uitgebreide taal instructies? Hoewel dergelijke details de besluitvorming vergemakkelijken, gaan ze fundamenteel in tegen het doel van navigatie in de echte wereld. Idealiter zouden agents de autonomie moeten hebben om in onbekende omgevingen te navigeren, geleid door slechts eenvoudige en hoogoverige intenties. Het realiseren van deze ambitie introduceert een formidabele uitdaging: Beyond-the-View Navigation (BVN), waarbij agents verre, onzichtbare doelen moeten lokaliseren zonder gedetailleerde en stapsgewijze begeleiding. Bestaande op grote taalmodellen (LLM) gebaseerde methoden, hoewel bedreven in het volgen van gedetailleerde instructies, lijden vaak aan kortzichtige gedragingen vanwege hun afhankelijkheid van kortetermijntoezicht. Het simpelweg verlengen van de toezichthorizon destabiliseert echter de LLM-training. In dit werk identificeren we dat videogeneratiemodellen inherent profiteren van langetermijntoezicht om zich af te stemmen op taal instructies, wat ze bijzonder geschikt maakt voor BVN-taken. Gebruikmakend van dit inzicht, stellen we voor om het videogeneratiemodel voor het eerst in dit veld te introduceren. Echter, de buitensporige latentie voor het genereren van video's die tientallen seconden beslaan, maakt praktische inzet in de echte wereld onhaalbaar. Om deze kloof te overbruggen, stellen we SparseVideoNav voor, dat subseconden trajectinferentie bereikt, geleid door een gegenereerde toekomst met een sparse verdeling over een horizon van 20 seconden. Dit resulteert in een opmerkelijke 27x snelheidswinst vergeleken met de niet-geoptimaliseerde tegenhanger. Uitgebreide zero-shot experimenten in de echte wereld tonen aan dat SparseVideoNav een 2,5x hoger slagingspercentage behaalt dan state-of-the-art LLM-baselines op BVN-taken en markeert de eerste realisatie van een dergelijke capaciteit in uitdagende nachtscènes.

English

Why must vision-language navigation be bound to detailed and verbose language instructions? While such details ease decision-making, they fundamentally contradict the goal for navigation in the real-world. Ideally, agents should possess the autonomy to navigate in unknown environments guided solely by simple and high-level intents. Realizing this ambition introduces a formidable challenge: Beyond-the-View Navigation (BVN), where agents must locate distant, unseen targets without dense and step-by-step guidance. Existing large language model (LLM)-based methods, though adept at following dense instructions, often suffer from short-sighted behaviors due to their reliance on short-horimzon supervision. Simply extending the supervision horizon, however, destabilizes LLM training. In this work, we identify that video generation models inherently benefit from long-horizon supervision to align with language instructions, rendering them uniquely suitable for BVN tasks. Capitalizing on this insight, we propose introducing the video generation model into this field for the first time. Yet, the prohibitive latency for generating videos spanning tens of seconds makes real-world deployment impractical. To bridge this gap, we propose SparseVideoNav, achieving sub-second trajectory inference guided by a generated sparse future spanning a 20-second horizon. This yields a remarkable 27x speed-up compared to the unoptimized counterpart. Extensive real-world zero-shot experiments demonstrate that SparseVideoNav achieves 2.5x the success rate of state-of-the-art LLM baselines on BVN tasks and marks the first realization of such capability in challenging night scenes.

Sparse Video-generatie Bevordert Real-World Beyond-the-View Visie-Taal Navigatie

Sparse Video Generation Propels Real-World Beyond-the-View Vision-Language Navigation

Samenvatting

Support