NavGPT-2: Sbloccare le Capacità di Ragionamento Navigazionale per i Grandi Modelli Visione-Linguaggio
NavGPT-2: Unleashing Navigational Reasoning Capability for Large Vision-Language Models
July 17, 2024
Autori: Gengze Zhou, Yicong Hong, Zun Wang, Xin Eric Wang, Qi Wu
cs.AI
Abstract
Sfruttando i notevoli progressi nei Large Language Models (LLM), sta emergendo un'iniziativa per utilizzare gli LLM nella navigazione robotica basata su istruzioni. Tale tendenza sottolinea il potenziale degli LLM di generalizzare il ragionamento navigazionale e la comprensione linguistica diversificata. Tuttavia, si osserva una significativa discrepanza nelle prestazioni degli agenti quando si integrano gli LLM nei compiti di navigazione visiva e linguistica (VLN) rispetto ai precedenti modelli specializzati downstream. Inoltre, la capacità intrinseca del linguaggio di interpretare e facilitare la comunicazione nelle interazioni tra agenti è spesso sottoutilizzata in queste integrazioni. In questo lavoro, ci sforziamo di colmare il divario tra i modelli specializzati in VLN e i paradigmi di navigazione basati su LLM, mantenendo al contempo la capacità interpretativa degli LLM nella generazione di ragionamenti navigazionali linguistici. Allineando il contenuto visivo in un LLM congelato, comprendiamo l'osservazione visiva per gli LLM e sfruttiamo un modo per incorporare gli LLM e le reti di policy di navigazione per previsioni efficaci delle azioni e ragionamenti navigazionali. Dimostriamo l'efficienza dei dati dei metodi proposti ed eliminiamo il divario tra gli agenti basati su LM e i migliori specialisti VLN all'avanguardia.
English
Capitalizing on the remarkable advancements in Large Language Models (LLMs),
there is a burgeoning initiative to harness LLMs for instruction following
robotic navigation. Such a trend underscores the potential of LLMs to
generalize navigational reasoning and diverse language understanding. However,
a significant discrepancy in agent performance is observed when integrating
LLMs in the Vision-and-Language navigation (VLN) tasks compared to previous
downstream specialist models. Furthermore, the inherent capacity of language to
interpret and facilitate communication in agent interactions is often
underutilized in these integrations. In this work, we strive to bridge the
divide between VLN-specialized models and LLM-based navigation paradigms, while
maintaining the interpretative prowess of LLMs in generating linguistic
navigational reasoning. By aligning visual content in a frozen LLM, we
encompass visual observation comprehension for LLMs and exploit a way to
incorporate LLMs and navigation policy networks for effective action
predictions and navigational reasoning. We demonstrate the data efficiency of
the proposed methods and eliminate the gap between LM-based agents and
state-of-the-art VLN specialists.