ChatPaper.aiChatPaper

NavGPT-2: Entfesselung der navigationalen Denkfähigkeit für große Vision-Sprach-Modelle

NavGPT-2: Unleashing Navigational Reasoning Capability for Large Vision-Language Models

July 17, 2024
Autoren: Gengze Zhou, Yicong Hong, Zun Wang, Xin Eric Wang, Qi Wu
cs.AI

Zusammenfassung

Durch die bemerkenswerten Fortschritte bei Large Language Models (LLMs) gibt es eine aufstrebende Initiative, LLMs für die Anweisung von robotischer Navigation zu nutzen. Ein solcher Trend unterstreicht das Potenzial von LLMs, um Navigationslogik und vielfältiges Sprachverständnis zu verallgemeinern. Es wird jedoch eine signifikante Diskrepanz in der Leistung der Agenten beobachtet, wenn LLMs in Vision-and-Language-Navigations (VLN) im Vergleich zu früheren spezialisierten Modellen integriert werden. Darüber hinaus wird das inhärente Vermögen der Sprache, Interpretation zu ermöglichen und die Kommunikation in Agenteninteraktionen zu erleichtern, in diesen Integrationen oft untergenutzt. In dieser Arbeit bemühen wir uns, die Kluft zwischen VLN-spezialisierten Modellen und LLM-basierten Navigationsparadigmen zu überbrücken, während wir die interpretative Fähigkeit von LLMs bei der Erzeugung von sprachlicher Navigationslogik beibehalten. Durch die Ausrichtung des visuellen Inhalts in einem eingefrorenen LLM erfassen wir das Verständnis visueller Beobachtungen für LLMs und nutzen einen Weg, um LLMs und Navigationsrichtliniennetzwerke für effektive Aktionsvorhersagen und Navigationslogik zu integrieren. Wir zeigen die Dateneffizienz der vorgeschlagenen Methoden auf und beseitigen die Kluft zwischen LM-basierten Agenten und VLN-Spezialisten auf dem neuesten Stand der Technik.
English
Capitalizing on the remarkable advancements in Large Language Models (LLMs), there is a burgeoning initiative to harness LLMs for instruction following robotic navigation. Such a trend underscores the potential of LLMs to generalize navigational reasoning and diverse language understanding. However, a significant discrepancy in agent performance is observed when integrating LLMs in the Vision-and-Language navigation (VLN) tasks compared to previous downstream specialist models. Furthermore, the inherent capacity of language to interpret and facilitate communication in agent interactions is often underutilized in these integrations. In this work, we strive to bridge the divide between VLN-specialized models and LLM-based navigation paradigms, while maintaining the interpretative prowess of LLMs in generating linguistic navigational reasoning. By aligning visual content in a frozen LLM, we encompass visual observation comprehension for LLMs and exploit a way to incorporate LLMs and navigation policy networks for effective action predictions and navigational reasoning. We demonstrate the data efficiency of the proposed methods and eliminate the gap between LM-based agents and state-of-the-art VLN specialists.

Summary

AI-Generated Summary

PDF42November 28, 2024