ChatPaper.aiChatPaper

NavGPT-2 : Libérer les capacités de raisonnement navigationnel pour les grands modèles vision-langage

NavGPT-2: Unleashing Navigational Reasoning Capability for Large Vision-Language Models

July 17, 2024
Auteurs: Gengze Zhou, Yicong Hong, Zun Wang, Xin Eric Wang, Qi Wu
cs.AI

Résumé

Tirant parti des avancées remarquables des modèles de langage à grande échelle (LLMs), une initiative émergente vise à exploiter ces LLMs pour la navigation robotique guidée par instructions. Cette tendance souligne le potentiel des LLMs à généraliser le raisonnement de navigation et la compréhension linguistique diversifiée. Cependant, une divergence significative dans les performances des agents est observée lors de l'intégration des LLMs dans les tâches de navigation visuelle et linguistique (VLN) par rapport aux modèles spécialisés précédents. De plus, la capacité inhérente du langage à interpréter et à faciliter la communication dans les interactions entre agents est souvent sous-utilisée dans ces intégrations. Dans ce travail, nous cherchons à combler le fossé entre les modèles spécialisés en VLN et les paradigmes de navigation basés sur les LLMs, tout en préservant la puissance interprétative des LLMs dans la génération de raisonnements de navigation linguistiques. En alignant le contenu visuel dans un LLM figé, nous englobons la compréhension des observations visuelles pour les LLMs et exploitons une méthode pour intégrer les LLMs et les réseaux de politiques de navigation afin de prédire efficacement les actions et de raisonner sur la navigation. Nous démontrons l'efficacité en termes de données des méthodes proposées et éliminons l'écart entre les agents basés sur des modèles de langage et les spécialistes de pointe en VLN.
English
Capitalizing on the remarkable advancements in Large Language Models (LLMs), there is a burgeoning initiative to harness LLMs for instruction following robotic navigation. Such a trend underscores the potential of LLMs to generalize navigational reasoning and diverse language understanding. However, a significant discrepancy in agent performance is observed when integrating LLMs in the Vision-and-Language navigation (VLN) tasks compared to previous downstream specialist models. Furthermore, the inherent capacity of language to interpret and facilitate communication in agent interactions is often underutilized in these integrations. In this work, we strive to bridge the divide between VLN-specialized models and LLM-based navigation paradigms, while maintaining the interpretative prowess of LLMs in generating linguistic navigational reasoning. By aligning visual content in a frozen LLM, we encompass visual observation comprehension for LLMs and exploit a way to incorporate LLMs and navigation policy networks for effective action predictions and navigational reasoning. We demonstrate the data efficiency of the proposed methods and eliminate the gap between LM-based agents and state-of-the-art VLN specialists.

Summary

AI-Generated Summary

PDF42November 28, 2024