LangNav: Язык как перцептивное представление для навигации
LangNav: Language as a Perceptual Representation for Navigation
October 11, 2023
Авторы: Bowen Pan, Rameswar Panda, SouYoung Jin, Rogerio Feris, Aude Oliva, Phillip Isola, Yoon Kim
cs.AI
Аннотация
Мы исследуем использование языка в качестве перцептивного представления для задач навигации, объединяющих зрение и язык. Наш подход использует готовые системы компьютерного зрения (для генерации подписей к изображениям и обнаружения объектов) для преобразования эгоцентрического панорамного обзора агента на каждом временном шаге в описания на естественном языке. Затем мы дообучаем предварительно обученную языковую модель для выбора действия, которое наилучшим образом выполнит инструкции по навигации, основываясь на текущем обзоре и истории траектории. В отличие от стандартного подхода, где предварительно обученная языковая модель адаптируется для работы непосредственно с непрерывными визуальными признаками из предварительно обученных моделей зрения, наш подход использует (дискретный) язык в качестве перцептивного представления. Мы исследуем два варианта применения нашего подхода к навигации на основе языка (LangNav) на бенчмарке R2R для навигации, объединяющей зрение и язык: генерацию синтетических траекторий с помощью крупной языковой модели (GPT-4) для дообучения меньшей языковой модели; и перенос из симуляции в реальность, где мы переносим политику, обученную в симулированной среде (ALFRED), в реальную среду (R2R). Наш подход демонстрирует улучшение по сравнению с сильными базовыми методами, которые полагаются на визуальные признаки, в условиях, когда доступно лишь небольшое количество эталонных траекторий (10–100), что подчеркивает потенциал использования языка в качестве перцептивного представления для задач навигации.
English
We explore the use of language as a perceptual representation for
vision-and-language navigation. Our approach uses off-the-shelf vision systems
(for image captioning and object detection) to convert an agent's egocentric
panoramic view at each time step into natural language descriptions. We then
finetune a pretrained language model to select an action, based on the current
view and the trajectory history, that would best fulfill the navigation
instructions. In contrast to the standard setup which adapts a pretrained
language model to work directly with continuous visual features from pretrained
vision models, our approach instead uses (discrete) language as the perceptual
representation. We explore two use cases of our language-based navigation
(LangNav) approach on the R2R vision-and-language navigation benchmark:
generating synthetic trajectories from a prompted large language model (GPT-4)
with which to finetune a smaller language model; and sim-to-real transfer where
we transfer a policy learned on a simulated environment (ALFRED) to a
real-world environment (R2R). Our approach is found to improve upon strong
baselines that rely on visual features in settings where only a few gold
trajectories (10-100) are available, demonstrating the potential of using
language as a perceptual representation for navigation tasks.