LangNav: Sprache als perzeptive Repräsentation für Navigation
LangNav: Language as a Perceptual Representation for Navigation
October 11, 2023
Autoren: Bowen Pan, Rameswar Panda, SouYoung Jin, Rogerio Feris, Aude Oliva, Phillip Isola, Yoon Kim
cs.AI
Zusammenfassung
Wir untersuchen die Verwendung von Sprache als perzeptive Repräsentation für die Vision-und-Sprache-Navigation. Unser Ansatz nutzt Standard-Visionsysteme (für Bildbeschreibung und Objekterkennung), um den egozentrischen Panoramablick eines Agenten in jedem Zeitschritt in natürliche Sprachbeschreibungen umzuwandeln. Anschließend feintunen wir ein vortrainiertes Sprachmodell, um basierend auf der aktuellen Ansicht und der Trajektorienhistorie eine Aktion auszuwählen, die die Navigationsanweisungen bestmöglich erfüllt. Im Gegensatz zum Standardaufbau, bei dem ein vortrainiertes Sprachmodell direkt mit kontinuierlichen visuellen Merkmalen aus vortrainierten Visionsmodellen arbeitet, verwendet unser Ansatz stattdessen (diskrete) Sprache als perzeptive Repräsentation. Wir untersuchen zwei Anwendungsfälle unseres sprachbasierten Navigationsansatzes (LangNav) auf dem R2R-Vision-und-Sprache-Navigationsbenchmark: die Generierung synthetischer Trajektorien aus einem geprompten großen Sprachmodell (GPT-4), mit denen ein kleineres Sprachmodell feingetunt wird; und Sim-to-Real-Transfer, bei dem wir eine in einer simulierten Umgebung (ALFRED) gelernte Policy auf eine reale Umgebung (R2R) übertragen. Unser Ansatz verbessert starke Baselines, die auf visuellen Merkmalen beruhen, in Szenarien, in denen nur wenige Gold-Trajektorien (10-100) verfügbar sind, und demonstriert das Potenzial der Verwendung von Sprache als perzeptive Repräsentation für Navigationsaufgaben.
English
We explore the use of language as a perceptual representation for
vision-and-language navigation. Our approach uses off-the-shelf vision systems
(for image captioning and object detection) to convert an agent's egocentric
panoramic view at each time step into natural language descriptions. We then
finetune a pretrained language model to select an action, based on the current
view and the trajectory history, that would best fulfill the navigation
instructions. In contrast to the standard setup which adapts a pretrained
language model to work directly with continuous visual features from pretrained
vision models, our approach instead uses (discrete) language as the perceptual
representation. We explore two use cases of our language-based navigation
(LangNav) approach on the R2R vision-and-language navigation benchmark:
generating synthetic trajectories from a prompted large language model (GPT-4)
with which to finetune a smaller language model; and sim-to-real transfer where
we transfer a policy learned on a simulated environment (ALFRED) to a
real-world environment (R2R). Our approach is found to improve upon strong
baselines that rely on visual features in settings where only a few gold
trajectories (10-100) are available, demonstrating the potential of using
language as a perceptual representation for navigation tasks.