LangNav: Taal als Perceptuele Representatie voor Navigatie
LangNav: Language as a Perceptual Representation for Navigation
October 11, 2023
Auteurs: Bowen Pan, Rameswar Panda, SouYoung Jin, Rogerio Feris, Aude Oliva, Phillip Isola, Yoon Kim
cs.AI
Samenvatting
We onderzoeken het gebruik van taal als een perceptuele representatie voor visie-en-taalnavigatie. Onze aanpak maakt gebruik van standaard visiesystemen (voor beeldbeschrijving en objectdetectie) om het egocentrische panoramische beeld van een agent bij elke tijdstap om te zetten in natuurlijke taalbeschrijvingen. Vervolgens finetunen we een vooraf getraind taalmodel om een actie te selecteren, gebaseerd op het huidige beeld en de trajectgeschiedenis, die het beste voldoet aan de navigatie-instructies. In tegenstelling tot de standaardopzet waarbij een vooraf getraind taalmodel wordt aangepast om direct te werken met continue visuele kenmerken van vooraf getrainde visiemodellen, gebruikt onze aanpak in plaats daarvan (discrete) taal als de perceptuele representatie. We onderzoeken twee use cases van onze taalgebaseerde navigatieaanpak (LangNav) op de R2R visie-en-taalnavigatiebenchmark: het genereren van synthetische trajecten vanuit een geprompt groot taalmodel (GPT-4) waarmee een kleiner taalmodel wordt gefinetuned; en sim-naar-real transfer waarbij we een beleid dat is geleerd in een gesimuleerde omgeving (ALFRED) overzetten naar een real-world omgeving (R2R). Onze aanpak blijkt sterke baselines die vertrouwen op visuele kenmerken te overtreffen in situaties waar slechts een paar gouden trajecten (10-100) beschikbaar zijn, wat het potentieel aantoont van het gebruik van taal als een perceptuele representatie voor navigatietaken.
English
We explore the use of language as a perceptual representation for
vision-and-language navigation. Our approach uses off-the-shelf vision systems
(for image captioning and object detection) to convert an agent's egocentric
panoramic view at each time step into natural language descriptions. We then
finetune a pretrained language model to select an action, based on the current
view and the trajectory history, that would best fulfill the navigation
instructions. In contrast to the standard setup which adapts a pretrained
language model to work directly with continuous visual features from pretrained
vision models, our approach instead uses (discrete) language as the perceptual
representation. We explore two use cases of our language-based navigation
(LangNav) approach on the R2R vision-and-language navigation benchmark:
generating synthetic trajectories from a prompted large language model (GPT-4)
with which to finetune a smaller language model; and sim-to-real transfer where
we transfer a policy learned on a simulated environment (ALFRED) to a
real-world environment (R2R). Our approach is found to improve upon strong
baselines that rely on visual features in settings where only a few gold
trajectories (10-100) are available, demonstrating the potential of using
language as a perceptual representation for navigation tasks.