NavGPT-2: Развитие навигационной способности рассуждений для крупных моделей видео-языка
NavGPT-2: Unleashing Navigational Reasoning Capability for Large Vision-Language Models
July 17, 2024
Авторы: Gengze Zhou, Yicong Hong, Zun Wang, Xin Eric Wang, Qi Wu
cs.AI
Аннотация
Воспользовавшись замечательными достижениями в области крупных языковых моделей (LLM), существует нарастающая инициатива использования LLM для навигации роботов по инструкциям. Такая тенденция подчеркивает потенциал LLM в обобщении навигационного мышления и понимания разнообразного языка. Однако наблюдается значительное расхождение в производительности агента при интеграции LLM в задачи навигации на основе видео и языка (VLN) по сравнению с предыдущими специализированными моделями. Более того, в этих интеграциях часто недооценивается врожденная способность языка к интерпретации и облегчению коммуникации во взаимодействиях агента. В данной работе мы стремимся сократить разрыв между специализированными моделями для VLN и парадигмами навигации на основе LLM, сохраняя интерпретационные способности LLM в создании лингвистического навигационного мышления. Путем выравнивания визуального контента в замороженной LLM мы охватываем понимание визуальных наблюдений для LLM и используем способ интеграции LLM и сетей политики навигации для эффективного предсказания действий и навигационного мышления. Мы демонстрируем эффективность предложенных методов по использованию данных и устраняем разрыв между агентами на основе LM и современными специалистами по VLN.
English
Capitalizing on the remarkable advancements in Large Language Models (LLMs),
there is a burgeoning initiative to harness LLMs for instruction following
robotic navigation. Such a trend underscores the potential of LLMs to
generalize navigational reasoning and diverse language understanding. However,
a significant discrepancy in agent performance is observed when integrating
LLMs in the Vision-and-Language navigation (VLN) tasks compared to previous
downstream specialist models. Furthermore, the inherent capacity of language to
interpret and facilitate communication in agent interactions is often
underutilized in these integrations. In this work, we strive to bridge the
divide between VLN-specialized models and LLM-based navigation paradigms, while
maintaining the interpretative prowess of LLMs in generating linguistic
navigational reasoning. By aligning visual content in a frozen LLM, we
encompass visual observation comprehension for LLMs and exploit a way to
incorporate LLMs and navigation policy networks for effective action
predictions and navigational reasoning. We demonstrate the data efficiency of
the proposed methods and eliminate the gap between LM-based agents and
state-of-the-art VLN specialists.Summary
AI-Generated Summary