SAME: Aprendizaje de Navegación Visual Guiada por Lenguaje Genérico con una Mezcla de Expertos Adaptativa al Estado
SAME: Learning Generic Language-Guided Visual Navigation with State-Adaptive Mixture of Experts
December 7, 2024
Autores: Gengze Zhou, Yicong Hong, Zun Wang, Chongyang Zhao, Mohit Bansal, Qi Wu
cs.AI
Resumen
El campo académico de la navegación visual guiada por instrucciones de aprendizaje se puede categorizar generalmente en búsqueda específica de categorías de alto nivel y navegación guiada por lenguaje de bajo nivel, dependiendo de la granularidad de la instrucción de lenguaje, en el que el primero enfatiza el proceso de exploración, mientras que el segundo se concentra en seguir comandos textuales detallados. A pesar de los enfoques diferentes de estas tareas, los requisitos subyacentes de interpretar instrucciones, comprender el entorno e inferir decisiones de acción siguen siendo consistentes. Este documento consolida diversas tareas de navegación en un marco unificado y genérico: investigamos las dificultades principales de compartir conocimiento general y explotar capacidades específicas de la tarea en el aprendizaje de la navegación y proponemos un nuevo modelo de Mezcla de Expertos Adaptativa al Estado (SAME, por sus siglas en inglés) que permite efectivamente a un agente inferir decisiones basadas en instrucciones de diferente granularidad y observaciones dinámicas. Impulsado por SAME, presentamos un agente versátil capaz de abordar siete tareas de navegación simultáneamente que supera o logra un rendimiento altamente comparable a agentes específicos de tarea.
English
The academic field of learning instruction-guided visual navigation can be
generally categorized into high-level category-specific search and low-level
language-guided navigation, depending on the granularity of language
instruction, in which the former emphasizes the exploration process, while the
latter concentrates on following detailed textual commands. Despite the
differing focuses of these tasks, the underlying requirements of interpreting
instructions, comprehending the surroundings, and inferring action decisions
remain consistent. This paper consolidates diverse navigation tasks into a
unified and generic framework -- we investigate the core difficulties of
sharing general knowledge and exploiting task-specific capabilities in learning
navigation and propose a novel State-Adaptive Mixture of Experts (SAME) model
that effectively enables an agent to infer decisions based on
different-granularity language and dynamic observations. Powered by SAME, we
present a versatile agent capable of addressing seven navigation tasks
simultaneously that outperforms or achieves highly comparable performance to
task-specific agents.