LangNav: Linguagem como Representação Perceptual para Navegação
LangNav: Language as a Perceptual Representation for Navigation
October 11, 2023
Autores: Bowen Pan, Rameswar Panda, SouYoung Jin, Rogerio Feris, Aude Oliva, Phillip Isola, Yoon Kim
cs.AI
Resumo
Exploramos o uso da linguagem como uma representação perceptiva para navegação visão-linguagem. Nossa abordagem utiliza sistemas de visão prontos para uso (para geração de legendas de imagens e detecção de objetos) para converter a visão panorâmica egocêntrica de um agente em cada passo do tempo em descrições de linguagem natural. Em seguida, ajustamos um modelo de linguagem pré-treinado para selecionar uma ação, com base na visão atual e no histórico da trajetória, que melhor cumpra as instruções de navegação. Em contraste com a configuração padrão, que adapta um modelo de linguagem pré-treinado para trabalhar diretamente com características visuais contínuas de modelos de visão pré-treinados, nossa abordagem utiliza a linguagem (discreta) como a representação perceptiva. Exploramos dois casos de uso de nossa abordagem de navegação baseada em linguagem (LangNav) no benchmark de navegação visão-linguagem R2R: gerar trajetórias sintéticas a partir de um modelo de linguagem grande (GPT-4) com o qual ajustamos um modelo de linguagem menor; e transferência de simulação para o mundo real, onde transferimos uma política aprendida em um ambiente simulado (ALFRED) para um ambiente do mundo real (R2R). Nossa abordagem demonstra melhorias em relação a baselines robustas que dependem de características visuais em cenários onde apenas algumas trajetórias de referência (10-100) estão disponíveis, mostrando o potencial de usar a linguagem como uma representação perceptiva para tarefas de navegação.
English
We explore the use of language as a perceptual representation for
vision-and-language navigation. Our approach uses off-the-shelf vision systems
(for image captioning and object detection) to convert an agent's egocentric
panoramic view at each time step into natural language descriptions. We then
finetune a pretrained language model to select an action, based on the current
view and the trajectory history, that would best fulfill the navigation
instructions. In contrast to the standard setup which adapts a pretrained
language model to work directly with continuous visual features from pretrained
vision models, our approach instead uses (discrete) language as the perceptual
representation. We explore two use cases of our language-based navigation
(LangNav) approach on the R2R vision-and-language navigation benchmark:
generating synthetic trajectories from a prompted large language model (GPT-4)
with which to finetune a smaller language model; and sim-to-real transfer where
we transfer a policy learned on a simulated environment (ALFRED) to a
real-world environment (R2R). Our approach is found to improve upon strong
baselines that rely on visual features in settings where only a few gold
trajectories (10-100) are available, demonstrating the potential of using
language as a perceptual representation for navigation tasks.