ChatPaper.aiChatPaper

LangNav: 내비게이션을 위한 지각적 표현으로서의 언어

LangNav: Language as a Perceptual Representation for Navigation

October 11, 2023
저자: Bowen Pan, Rameswar Panda, SouYoung Jin, Rogerio Feris, Aude Oliva, Phillip Isola, Yoon Kim
cs.AI

초록

우리는 시각 및 언어 기반 내비게이션을 위한 지각 표현으로서 언어의 사용을 탐구한다. 우리의 접근 방식은 에이전트의 자기 중심적 파노라마 뷰를 각 시간 단계마다 자연어 설명으로 변환하기 위해 기성 시각 시스템(이미지 캡셔닝 및 객체 감지를 위한)을 사용한다. 그런 다음, 현재 뷰와 이동 경로 이력을 기반으로 내비게이션 지시를 가장 잘 수행할 수 있는 동작을 선택하도록 사전 학습된 언어 모델을 미세 조정한다. 사전 학습된 시각 모델의 연속적인 시각적 특징과 직접 작동하도록 사전 학습된 언어 모델을 적용하는 표준 설정과 달리, 우리의 접근 방식은 (이산적인) 언어를 지각 표현으로 사용한다. 우리는 R2R 시각 및 언어 내비게이션 벤치마크에서 언어 기반 내비게이션(LangNav) 접근 방식의 두 가지 사용 사례를 탐구한다: 프롬프트된 대형 언어 모델(GPT-4)로부터 합성 이동 경로를 생성하여 더 작은 언어 모델을 미세 조정하는 것; 그리고 시뮬레이션 환경(ALFRED)에서 학습된 정책을 실제 환경(R2R)으로 전이하는 시뮬레이션-투-리얼 전이이다. 우리의 접근 방식은 소수의 골드 이동 경로(10-100개)만 사용 가능한 설정에서 시각적 특징에 의존하는 강력한 베이스라인을 개선하는 것으로 나타나, 내비게이션 작업을 위한 지각 표현으로서 언어 사용의 잠재력을 입증한다.
English
We explore the use of language as a perceptual representation for vision-and-language navigation. Our approach uses off-the-shelf vision systems (for image captioning and object detection) to convert an agent's egocentric panoramic view at each time step into natural language descriptions. We then finetune a pretrained language model to select an action, based on the current view and the trajectory history, that would best fulfill the navigation instructions. In contrast to the standard setup which adapts a pretrained language model to work directly with continuous visual features from pretrained vision models, our approach instead uses (discrete) language as the perceptual representation. We explore two use cases of our language-based navigation (LangNav) approach on the R2R vision-and-language navigation benchmark: generating synthetic trajectories from a prompted large language model (GPT-4) with which to finetune a smaller language model; and sim-to-real transfer where we transfer a policy learned on a simulated environment (ALFRED) to a real-world environment (R2R). Our approach is found to improve upon strong baselines that rely on visual features in settings where only a few gold trajectories (10-100) are available, demonstrating the potential of using language as a perceptual representation for navigation tasks.
PDF61December 15, 2024