NavGPT-2: Liberando a Capacidade de Raciocínio Navegacional para Modelos de Visão e Linguagem de Grande Escala
NavGPT-2: Unleashing Navigational Reasoning Capability for Large Vision-Language Models
July 17, 2024
Autores: Gengze Zhou, Yicong Hong, Zun Wang, Xin Eric Wang, Qi Wu
cs.AI
Resumo
Aproveitando os notáveis avanços em Modelos de Linguagem de Grande Escala (LLMs), há uma iniciativa em crescimento para utilizar os LLMs na navegação robótica com base em instruções. Essa tendência destaca o potencial dos LLMs para generalizar o raciocínio de navegação e a compreensão de linguagens diversas. No entanto, observa-se uma discrepância significativa no desempenho do agente ao integrar LLMs nas tarefas de navegação Visão-e-Linguagem (VLN) em comparação com modelos especializados anteriores. Além disso, a capacidade inerente da linguagem de interpretar e facilitar a comunicação nas interações do agente é frequentemente subutilizada nessas integrações. Neste trabalho, buscamos reduzir a divisão entre modelos especializados em VLN e paradigmas de navegação baseados em LLMs, ao mesmo tempo que mantemos a habilidade interpretativa dos LLMs na geração de raciocínio de navegação linguística. Ao alinhar o conteúdo visual em um LLM congelado, abrangemos a compreensão de observação visual para LLMs e exploramos uma maneira de incorporar LLMs e redes de políticas de navegação para previsões de ações eficazes e raciocínio de navegação. Demonstramos a eficiência de dados dos métodos propostos e eliminamos a lacuna entre agentes baseados em LM e especialistas em VLN de última geração.
English
Capitalizing on the remarkable advancements in Large Language Models (LLMs),
there is a burgeoning initiative to harness LLMs for instruction following
robotic navigation. Such a trend underscores the potential of LLMs to
generalize navigational reasoning and diverse language understanding. However,
a significant discrepancy in agent performance is observed when integrating
LLMs in the Vision-and-Language navigation (VLN) tasks compared to previous
downstream specialist models. Furthermore, the inherent capacity of language to
interpret and facilitate communication in agent interactions is often
underutilized in these integrations. In this work, we strive to bridge the
divide between VLN-specialized models and LLM-based navigation paradigms, while
maintaining the interpretative prowess of LLMs in generating linguistic
navigational reasoning. By aligning visual content in a frozen LLM, we
encompass visual observation comprehension for LLMs and exploit a way to
incorporate LLMs and navigation policy networks for effective action
predictions and navigational reasoning. We demonstrate the data efficiency of
the proposed methods and eliminate the gap between LM-based agents and
state-of-the-art VLN specialists.