NavGPT-2: 대규모 시각-언어 모델을 위한 항법 추론 능력의 해방
NavGPT-2: Unleashing Navigational Reasoning Capability for Large Vision-Language Models
July 17, 2024
저자: Gengze Zhou, Yicong Hong, Zun Wang, Xin Eric Wang, Qi Wu
cs.AI
초록
대규모 언어 모델(LLMs)의 놀라운 발전을 활용하여, 명령 수행 로봇 내비게이션에 LLMs를 적용하려는 새로운 움직임이 활발히 진행 중입니다. 이러한 추세는 LLMs가 내비게이션 추론과 다양한 언어 이해를 일반화할 수 있는 잠재력을 강조합니다. 그러나, 비전-언어 내비게이션(VLN) 작업에 LLMs를 통합할 때 이전의 하위 전문 모델들과 비교해 에이전트 성능에서 상당한 차이가 관찰됩니다. 또한, 에이전트 상호작용에서 언어의 해석 및 의사소통 촉진 능력은 이러한 통합에서 종종 충분히 활용되지 않습니다. 본 연구에서는 VLN 전문 모델과 LLM 기반 내비게이션 패러다임 간의 격차를 해소하고, LLMs의 언어적 내비게이션 추론 생성 능력을 유지하는 데 주력합니다. 고정된 LLM에 시각적 콘텐츠를 정렬함으로써, LLMs의 시각적 관찰 이해를 포괄하고, 효과적인 행동 예측 및 내비게이션 추론을 위해 LLMs와 내비게이션 정책 네트워크를 통합하는 방법을 탐구합니다. 우리는 제안된 방법의 데이터 효율성을 입증하고, LM 기반 에이전트와 최신 VLN 전문가 간의 격차를 제거합니다.
English
Capitalizing on the remarkable advancements in Large Language Models (LLMs),
there is a burgeoning initiative to harness LLMs for instruction following
robotic navigation. Such a trend underscores the potential of LLMs to
generalize navigational reasoning and diverse language understanding. However,
a significant discrepancy in agent performance is observed when integrating
LLMs in the Vision-and-Language navigation (VLN) tasks compared to previous
downstream specialist models. Furthermore, the inherent capacity of language to
interpret and facilitate communication in agent interactions is often
underutilized in these integrations. In this work, we strive to bridge the
divide between VLN-specialized models and LLM-based navigation paradigms, while
maintaining the interpretative prowess of LLMs in generating linguistic
navigational reasoning. By aligning visual content in a frozen LLM, we
encompass visual observation comprehension for LLMs and exploit a way to
incorporate LLMs and navigation policy networks for effective action
predictions and navigational reasoning. We demonstrate the data efficiency of
the proposed methods and eliminate the gap between LM-based agents and
state-of-the-art VLN specialists.Summary
AI-Generated Summary