ChatPaper.aiChatPaper

NavGPT-2: Liberando la Capacidad de Razonamiento Navegacional para Modelos de Visión-Lenguaje Grandes

NavGPT-2: Unleashing Navigational Reasoning Capability for Large Vision-Language Models

July 17, 2024
Autores: Gengze Zhou, Yicong Hong, Zun Wang, Xin Eric Wang, Qi Wu
cs.AI

Resumen

Aprovechando los notables avances en los Modelos de Lenguaje de Gran Escala (LLMs), existe una iniciativa creciente para aprovechar los LLMs en la navegación robótica siguiendo instrucciones. Esta tendencia subraya el potencial de los LLMs para generalizar el razonamiento de navegación y la comprensión de lenguajes diversos. Sin embargo, se observa una discrepancia significativa en el rendimiento del agente al integrar LLMs en las tareas de navegación Visión-y-Lenguaje (VLN) en comparación con modelos especializados anteriores. Además, la capacidad inherente del lenguaje para interpretar y facilitar la comunicación en las interacciones del agente a menudo se subutiliza en estas integraciones. En este trabajo, nos esforzamos por cerrar la brecha entre los modelos especializados en VLN y los paradigmas de navegación basados en LLMs, manteniendo la capacidad interpretativa de los LLMs para generar razonamientos de navegación lingüística. Al alinear el contenido visual en un LLM congelado, abarcamos la comprensión de observaciones visuales para los LLMs y explotamos una forma de incorporar LLMs y redes de políticas de navegación para predicciones de acciones efectivas y razonamientos de navegación. Demostramos la eficiencia de datos de los métodos propuestos y eliminamos la brecha entre los agentes basados en LM y los especialistas en VLN de última generación.
English
Capitalizing on the remarkable advancements in Large Language Models (LLMs), there is a burgeoning initiative to harness LLMs for instruction following robotic navigation. Such a trend underscores the potential of LLMs to generalize navigational reasoning and diverse language understanding. However, a significant discrepancy in agent performance is observed when integrating LLMs in the Vision-and-Language navigation (VLN) tasks compared to previous downstream specialist models. Furthermore, the inherent capacity of language to interpret and facilitate communication in agent interactions is often underutilized in these integrations. In this work, we strive to bridge the divide between VLN-specialized models and LLM-based navigation paradigms, while maintaining the interpretative prowess of LLMs in generating linguistic navigational reasoning. By aligning visual content in a frozen LLM, we encompass visual observation comprehension for LLMs and exploit a way to incorporate LLMs and navigation policy networks for effective action predictions and navigational reasoning. We demonstrate the data efficiency of the proposed methods and eliminate the gap between LM-based agents and state-of-the-art VLN specialists.

Summary

AI-Generated Summary

PDF42November 28, 2024