SAME: Aprendizado de Navegação Visual Guiada por Linguagem Genérica com Misto de Especialistas Adaptativos ao Estado
SAME: Learning Generic Language-Guided Visual Navigation with State-Adaptive Mixture of Experts
December 7, 2024
Autores: Gengze Zhou, Yicong Hong, Zun Wang, Chongyang Zhao, Mohit Bansal, Qi Wu
cs.AI
Resumo
O campo acadêmico da navegação visual guiada por instruções de aprendizado pode ser geralmente categorizado em busca específica de categoria de alto nível e navegação guiada por linguagem de baixo nível, dependendo da granularidade da instrução de linguagem, em que o primeiro enfatiza o processo de exploração, enquanto o último se concentra em seguir comandos textuais detalhados. Apesar dos diferentes focos dessas tarefas, os requisitos subjacentes de interpretar instruções, compreender o ambiente e inferir decisões de ação permanecem consistentes. Este artigo consolida diversas tarefas de navegação em um framework unificado e genérico -- investigamos as dificuldades principais de compartilhar conhecimento geral e explorar capacidades específicas da tarefa no aprendizado de navegação e propomos um novo modelo State-Adaptive Mixture of Experts (SAME) que permite efetivamente a um agente inferir decisões com base em instruções de diferentes granularidades e observações dinâmicas. Impulsionado pelo SAME, apresentamos um agente versátil capaz de lidar simultaneamente com sete tarefas de navegação que supera ou alcança desempenho altamente comparável aos agentes específicos da tarefa.
English
The academic field of learning instruction-guided visual navigation can be
generally categorized into high-level category-specific search and low-level
language-guided navigation, depending on the granularity of language
instruction, in which the former emphasizes the exploration process, while the
latter concentrates on following detailed textual commands. Despite the
differing focuses of these tasks, the underlying requirements of interpreting
instructions, comprehending the surroundings, and inferring action decisions
remain consistent. This paper consolidates diverse navigation tasks into a
unified and generic framework -- we investigate the core difficulties of
sharing general knowledge and exploiting task-specific capabilities in learning
navigation and propose a novel State-Adaptive Mixture of Experts (SAME) model
that effectively enables an agent to infer decisions based on
different-granularity language and dynamic observations. Powered by SAME, we
present a versatile agent capable of addressing seven navigation tasks
simultaneously that outperforms or achieves highly comparable performance to
task-specific agents.Summary
AI-Generated Summary