ChatPaper.aiChatPaper

Apprentissage de la navigation visuelle guidée par langage générique avec un Mélange d'Experts Adaptatif à l'État

SAME: Learning Generic Language-Guided Visual Navigation with State-Adaptive Mixture of Experts

December 7, 2024
Auteurs: Gengze Zhou, Yicong Hong, Zun Wang, Chongyang Zhao, Mohit Bansal, Qi Wu
cs.AI

Résumé

Le domaine académique de la navigation visuelle guidée par l'apprentissage peut être généralement catégorisé en recherche spécifique de catégorie de haut niveau et en navigation guidée par le langage de bas niveau, en fonction de la granularité de l'instruction linguistique, dans lequel le premier met l'accent sur le processus d'exploration, tandis que le second se concentre sur le suivi de commandes textuelles détaillées. Malgré les objectifs différents de ces tâches, les exigences sous-jacentes d'interprétation des instructions, de compréhension de l'environnement et d'inférence des décisions d'action restent cohérentes. Cet article consolide diverses tâches de navigation dans un cadre unifié et générique -- nous étudions les difficultés fondamentales de partage des connaissances générales et d'exploitation des capacités spécifiques à la tâche dans l'apprentissage de la navigation et proposons un nouveau modèle State-Adaptive Mixture of Experts (SAME) qui permet efficacement à un agent d'inférer des décisions basées sur un langage de granularité différente et des observations dynamiques. Alimenté par SAME, nous présentons un agent polyvalent capable de traiter simultanément sept tâches de navigation qui surpasse ou atteint des performances très comparables à celles des agents spécifiques à la tâche.
English
The academic field of learning instruction-guided visual navigation can be generally categorized into high-level category-specific search and low-level language-guided navigation, depending on the granularity of language instruction, in which the former emphasizes the exploration process, while the latter concentrates on following detailed textual commands. Despite the differing focuses of these tasks, the underlying requirements of interpreting instructions, comprehending the surroundings, and inferring action decisions remain consistent. This paper consolidates diverse navigation tasks into a unified and generic framework -- we investigate the core difficulties of sharing general knowledge and exploiting task-specific capabilities in learning navigation and propose a novel State-Adaptive Mixture of Experts (SAME) model that effectively enables an agent to infer decisions based on different-granularity language and dynamic observations. Powered by SAME, we present a versatile agent capable of addressing seven navigation tasks simultaneously that outperforms or achieves highly comparable performance to task-specific agents.

Summary

AI-Generated Summary

PDF52December 13, 2024