Обучение обобщенной языково-управляемой визуальной навигации с Состояние-адаптивным смесью экспертов
SAME: Learning Generic Language-Guided Visual Navigation with State-Adaptive Mixture of Experts
December 7, 2024
Авторы: Gengze Zhou, Yicong Hong, Zun Wang, Chongyang Zhao, Mohit Bansal, Qi Wu
cs.AI
Аннотация
Академическая область обучения навигации с участием инструкций может быть общим образом разделена на поиск высокого уровня по категориям и навигацию с учетом языковых инструкций низкого уровня, в зависимости от детализации языковых инструкций, где первое подчеркивает процесс исследования, в то время как второе сосредотачивается на выполнении подробных текстовых команд. Несмотря на различные акценты этих задач, основные требования к интерпретации инструкций, пониманию окружающей обстановки и выводу решений об акциях остаются постоянными. В данной статье разнообразные задачи навигации объединяются в единый и общий каркас - мы исследуем основные трудности обмена общими знаниями и использования специфических для задач возможностей в обучении навигации и предлагаем новую модель State-Adaptive Mixture of Experts (SAME), которая эффективно позволяет агенту выводить решения на основе языка различной детализации и динамических наблюдений. Поддерживаемый SAME, мы представляем универсального агента, способного одновременно решать семь задач навигации, превосходящего или достигающего высокой сравнимой производительности по сравнению с агентами, специализированными на задачу.
English
The academic field of learning instruction-guided visual navigation can be
generally categorized into high-level category-specific search and low-level
language-guided navigation, depending on the granularity of language
instruction, in which the former emphasizes the exploration process, while the
latter concentrates on following detailed textual commands. Despite the
differing focuses of these tasks, the underlying requirements of interpreting
instructions, comprehending the surroundings, and inferring action decisions
remain consistent. This paper consolidates diverse navigation tasks into a
unified and generic framework -- we investigate the core difficulties of
sharing general knowledge and exploiting task-specific capabilities in learning
navigation and propose a novel State-Adaptive Mixture of Experts (SAME) model
that effectively enables an agent to infer decisions based on
different-granularity language and dynamic observations. Powered by SAME, we
present a versatile agent capable of addressing seven navigation tasks
simultaneously that outperforms or achieves highly comparable performance to
task-specific agents.Summary
AI-Generated Summary