Lernen von generischer sprachgesteuerter visueller Navigation mit einem zustandsadaptiven Expertenmischmodell.
SAME: Learning Generic Language-Guided Visual Navigation with State-Adaptive Mixture of Experts
December 7, 2024
Autoren: Gengze Zhou, Yicong Hong, Zun Wang, Chongyang Zhao, Mohit Bansal, Qi Wu
cs.AI
Zusammenfassung
Das akademische Feld des lerngesteuerten visuellen Navigationsunterrichts kann im Allgemeinen in die Kategorien hochrangige kategoriespezifische Suche und sprachgesteuerte Navigation auf niedrigem Niveau unterteilt werden, abhängig von der Feinheit der Sprachanweisungen, wobei Ersteres den Erkundungsprozess betont, während Letzteres sich auf das Befolgen detaillierter textueller Befehle konzentriert. Trotz der unterschiedlichen Schwerpunkte dieser Aufgaben bleiben die zugrunde liegenden Anforderungen der Interpretation von Anweisungen, des Verstehens der Umgebung und des Ableitens von Handlungsentscheidungen konsistent. Dieser Artikel konsolidiert verschiedene Navigationsaufgaben in einen einheitlichen und generischen Rahmen - wir untersuchen die Kernschwierigkeiten beim Teilen von generellem Wissen und der Nutzung aufgabenspezifischer Fähigkeiten beim Lernen von Navigation und schlagen ein neuartiges State-Adaptive Mixture of Experts (SAME)-Modell vor, das es einem Agenten effektiv ermöglicht, Entscheidungen basierend auf Sprache unterschiedlicher Feinheit und dynamischen Beobachtungen abzuleiten. Mit Hilfe von SAME präsentieren wir einen vielseitigen Agenten, der in der Lage ist, gleichzeitig sieben Navigationsaufgaben zu bewältigen, und der leistungsstärker ist oder eine sehr vergleichbare Leistung im Vergleich zu aufgabenspezifischen Agenten erzielt.
English
The academic field of learning instruction-guided visual navigation can be
generally categorized into high-level category-specific search and low-level
language-guided navigation, depending on the granularity of language
instruction, in which the former emphasizes the exploration process, while the
latter concentrates on following detailed textual commands. Despite the
differing focuses of these tasks, the underlying requirements of interpreting
instructions, comprehending the surroundings, and inferring action decisions
remain consistent. This paper consolidates diverse navigation tasks into a
unified and generic framework -- we investigate the core difficulties of
sharing general knowledge and exploiting task-specific capabilities in learning
navigation and propose a novel State-Adaptive Mixture of Experts (SAME) model
that effectively enables an agent to infer decisions based on
different-granularity language and dynamic observations. Powered by SAME, we
present a versatile agent capable of addressing seven navigation tasks
simultaneously that outperforms or achieves highly comparable performance to
task-specific agents.Summary
AI-Generated Summary