LangNav: El lenguaje como representación perceptiva para la navegación
LangNav: Language as a Perceptual Representation for Navigation
October 11, 2023
Autores: Bowen Pan, Rameswar Panda, SouYoung Jin, Rogerio Feris, Aude Oliva, Phillip Isola, Yoon Kim
cs.AI
Resumen
Exploramos el uso del lenguaje como representación perceptual para la navegación visión-lenguaje. Nuestro enfoque utiliza sistemas de visión preexistentes (para generación de descripciones de imágenes y detección de objetos) para convertir la vista panorámica egocéntrica de un agente en cada paso temporal en descripciones en lenguaje natural. Luego, ajustamos un modelo de lenguaje preentrenado para seleccionar una acción, basada en la vista actual y el historial de trayectoria, que mejor cumpla con las instrucciones de navegación. A diferencia de la configuración estándar que adapta un modelo de lenguaje preentrenado para trabajar directamente con características visuales continuas de modelos de visión preentrenados, nuestro enfoque utiliza el lenguaje (discreto) como representación perceptual. Exploramos dos casos de uso de nuestro enfoque de navegación basada en lenguaje (LangNav) en el benchmark de navegación visión-lenguaje R2R: generar trayectorias sintéticas a partir de un modelo de lenguaje grande (GPT-4) con el cual ajustar un modelo de lenguaje más pequeño; y transferencia de simulación a realidad, donde transferimos una política aprendida en un entorno simulado (ALFRED) a un entorno del mundo real (R2R). Nuestro enfoque demuestra mejoras sobre líneas base sólidas que dependen de características visuales en configuraciones donde solo están disponibles unas pocas trayectorias de referencia (10-100), mostrando el potencial de usar el lenguaje como representación perceptual para tareas de navegación.
English
We explore the use of language as a perceptual representation for
vision-and-language navigation. Our approach uses off-the-shelf vision systems
(for image captioning and object detection) to convert an agent's egocentric
panoramic view at each time step into natural language descriptions. We then
finetune a pretrained language model to select an action, based on the current
view and the trajectory history, that would best fulfill the navigation
instructions. In contrast to the standard setup which adapts a pretrained
language model to work directly with continuous visual features from pretrained
vision models, our approach instead uses (discrete) language as the perceptual
representation. We explore two use cases of our language-based navigation
(LangNav) approach on the R2R vision-and-language navigation benchmark:
generating synthetic trajectories from a prompted large language model (GPT-4)
with which to finetune a smaller language model; and sim-to-real transfer where
we transfer a policy learned on a simulated environment (ALFRED) to a
real-world environment (R2R). Our approach is found to improve upon strong
baselines that rely on visual features in settings where only a few gold
trajectories (10-100) are available, demonstrating the potential of using
language as a perceptual representation for navigation tasks.