LangNav : Le langage comme représentation perceptuelle pour la navigation
LangNav: Language as a Perceptual Representation for Navigation
October 11, 2023
papers.authors: Bowen Pan, Rameswar Panda, SouYoung Jin, Rogerio Feris, Aude Oliva, Phillip Isola, Yoon Kim
cs.AI
papers.abstract
Nous explorons l'utilisation du langage comme représentation perceptuelle pour la navigation visuelle et langagière. Notre approche utilise des systèmes de vision prêts à l'emploi (pour la génération de légendes d'images et la détection d'objets) afin de convertir la vue panoramique égocentrique d'un agent à chaque étape temporelle en descriptions en langage naturel. Nous affinons ensuite un modèle de langage préentraîné pour sélectionner une action, basée sur la vue actuelle et l'historique de la trajectoire, qui permettrait de mieux respecter les instructions de navigation. Contrairement à la configuration standard qui adapte un modèle de langage préentraîné pour fonctionner directement avec des caractéristiques visuelles continues issues de modèles de vision préentraînés, notre approche utilise plutôt le langage (discret) comme représentation perceptuelle. Nous explorons deux cas d'utilisation de notre approche de navigation basée sur le langage (LangNav) sur le benchmark de navigation visuelle et langagière R2R : la génération de trajectoires synthétiques à partir d'un grand modèle de langage sollicité (GPT-4) pour affiner un modèle de langage plus petit ; et le transfert sim-to-real où nous transférons une politique apprise dans un environnement simulé (ALFRED) à un environnement réel (R2R). Notre approche s'avère améliorer les performances par rapport à des bases de référence solides qui reposent sur des caractéristiques visuelles dans des contextes où seulement quelques trajectoires de référence (10-100) sont disponibles, démontrant ainsi le potentiel de l'utilisation du langage comme représentation perceptuelle pour les tâches de navigation.
English
We explore the use of language as a perceptual representation for
vision-and-language navigation. Our approach uses off-the-shelf vision systems
(for image captioning and object detection) to convert an agent's egocentric
panoramic view at each time step into natural language descriptions. We then
finetune a pretrained language model to select an action, based on the current
view and the trajectory history, that would best fulfill the navigation
instructions. In contrast to the standard setup which adapts a pretrained
language model to work directly with continuous visual features from pretrained
vision models, our approach instead uses (discrete) language as the perceptual
representation. We explore two use cases of our language-based navigation
(LangNav) approach on the R2R vision-and-language navigation benchmark:
generating synthetic trajectories from a prompted large language model (GPT-4)
with which to finetune a smaller language model; and sim-to-real transfer where
we transfer a policy learned on a simulated environment (ALFRED) to a
real-world environment (R2R). Our approach is found to improve upon strong
baselines that rely on visual features in settings where only a few gold
trajectories (10-100) are available, demonstrating the potential of using
language as a perceptual representation for navigation tasks.