NavGPT-2: Het Vrijmaken van Navigatievermogen voor Grote Visueel-Taalmodellen
NavGPT-2: Unleashing Navigational Reasoning Capability for Large Vision-Language Models
July 17, 2024
Auteurs: Gengze Zhou, Yicong Hong, Zun Wang, Xin Eric Wang, Qi Wu
cs.AI
Samenvatting
Gebruikmakend van de opmerkelijke vooruitgang in Large Language Models (LLM's),
is er een groeiende initiatief om LLM's in te zetten voor instructievolgend
robotnavigatie. Deze trend benadrukt het potentieel van LLM's om
navigatieredenering en diverse taalbegrip te generaliseren. Echter,
wordt een significant verschil in agentprestaties waargenomen bij het integreren
van LLM's in Vision-and-Language Navigation (VLN)-taken in vergelijking met eerdere
gespecialiseerde downstream-modellen. Bovendien wordt de inherente capaciteit van taal om
communicatie in agentinteracties te interpreteren en te faciliteren vaak
onderbenut in deze integraties. In dit werk streven we ernaar de kloof te overbruggen
tussen VLN-gespecialiseerde modellen en LLM-gebaseerde navigatieparadigma's, terwijl
we het interpretatieve vermogen van LLM's behouden in het genereren van linguïstische
navigatieredenering. Door visuele inhoud uit te lijnen in een bevroren LLM, omvatten we
visuele observatiebegrip voor LLM's en benutten we een manier om
LLM's en navigatiebeleidsnetwerken te integreren voor effectieve actievoorspellingen
en navigatieredenering. We demonstreren de data-efficiëntie van
de voorgestelde methoden en elimineren de kloof tussen LM-gebaseerde agenten en
state-of-the-art VLN-specialisten.
English
Capitalizing on the remarkable advancements in Large Language Models (LLMs),
there is a burgeoning initiative to harness LLMs for instruction following
robotic navigation. Such a trend underscores the potential of LLMs to
generalize navigational reasoning and diverse language understanding. However,
a significant discrepancy in agent performance is observed when integrating
LLMs in the Vision-and-Language navigation (VLN) tasks compared to previous
downstream specialist models. Furthermore, the inherent capacity of language to
interpret and facilitate communication in agent interactions is often
underutilized in these integrations. In this work, we strive to bridge the
divide between VLN-specialized models and LLM-based navigation paradigms, while
maintaining the interpretative prowess of LLMs in generating linguistic
navigational reasoning. By aligning visual content in a frozen LLM, we
encompass visual observation comprehension for LLMs and exploit a way to
incorporate LLMs and navigation policy networks for effective action
predictions and navigational reasoning. We demonstrate the data efficiency of
the proposed methods and eliminate the gap between LM-based agents and
state-of-the-art VLN specialists.