LangNav: Il linguaggio come rappresentazione percettiva per la navigazione

Abstract

Esploriamo l'uso del linguaggio come rappresentazione percettiva per la navigazione visiva e linguistica. Il nostro approccio utilizza sistemi di visione preesistenti (per la generazione di didascalie e il rilevamento di oggetti) per convertire la vista panoramica egocentrica di un agente in ogni passo temporale in descrizioni in linguaggio naturale. Successivamente, ottimizziamo un modello linguistico preaddestrato per selezionare un'azione, basata sulla vista corrente e sulla storia della traiettoria, che meglio soddisfi le istruzioni di navigazione. A differenza dell'impostazione standard che adatta un modello linguistico preaddestrato per lavorare direttamente con caratteristiche visive continue provenienti da modelli di visione preaddestrati, il nostro approccio utilizza invece il linguaggio (discreto) come rappresentazione percettiva. Esploriamo due casi d'uso del nostro approccio di navigazione basata sul linguaggio (LangNav) sul benchmark di navigazione visiva e linguistica R2R: generare traiettorie sintetiche da un modello linguistico di grandi dimensioni (GPT-4) con cui ottimizzare un modello linguistico più piccolo; e il trasferimento da simulazione a realtà, in cui trasferiamo una politica appresa in un ambiente simulato (ALFRED) a un ambiente reale (R2R). Il nostro approccio si è dimostrato in grado di migliorare rispetto a baseline robuste che si basano su caratteristiche visive in contesti in cui sono disponibili solo poche traiettorie di riferimento (10-100), dimostrando il potenziale dell'uso del linguaggio come rappresentazione percettiva per compiti di navigazione.

English

We explore the use of language as a perceptual representation for vision-and-language navigation. Our approach uses off-the-shelf vision systems (for image captioning and object detection) to convert an agent's egocentric panoramic view at each time step into natural language descriptions. We then finetune a pretrained language model to select an action, based on the current view and the trajectory history, that would best fulfill the navigation instructions. In contrast to the standard setup which adapts a pretrained language model to work directly with continuous visual features from pretrained vision models, our approach instead uses (discrete) language as the perceptual representation. We explore two use cases of our language-based navigation (LangNav) approach on the R2R vision-and-language navigation benchmark: generating synthetic trajectories from a prompted large language model (GPT-4) with which to finetune a smaller language model; and sim-to-real transfer where we transfer a policy learned on a simulated environment (ALFRED) to a real-world environment (R2R). Our approach is found to improve upon strong baselines that rely on visual features in settings where only a few gold trajectories (10-100) are available, demonstrating the potential of using language as a perceptual representation for navigation tasks.

LangNav: Il linguaggio come rappresentazione percettiva per la navigazione

LangNav: Language as a Perceptual Representation for Navigation

Abstract

Support