Hetzelfde: Het leren van generieke taalgestuurde visuele navigatie met een staat-aangepaste mengeling van experts.
SAME: Learning Generic Language-Guided Visual Navigation with State-Adaptive Mixture of Experts
December 7, 2024
Auteurs: Gengze Zhou, Yicong Hong, Zun Wang, Chongyang Zhao, Mohit Bansal, Qi Wu
cs.AI
Samenvatting
Het academische veld van leren met instructiegestuurde visuele navigatie kan over het algemeen worden onderverdeeld in hoog-niveau categorie-specifieke zoekopdrachten en laag-niveau taalgestuurde navigatie, afhankelijk van de granulariteit van de taalinstructie, waarbij de eerste de nadruk legt op het verkenningproces, terwijl de laatste zich richt op het volgen van gedetailleerde tekstuele commando's. Ondanks de verschillende focus van deze taken, blijven de onderliggende vereisten van het interpreteren van instructies, het begrijpen van de omgeving en het afleiden van actiebeslissingen consistent. Dit artikel consolideert diverse navigatietaken in een verenigd en generiek kader - we onderzoeken de kernmoeilijkheden van het delen van algemene kennis en het benutten van taakspecifieke mogelijkheden bij het leren van navigatie en stellen een nieuw State-Adaptive Mixture of Experts (SAME) model voor dat een agent effectief in staat stelt beslissingen af te leiden op basis van taal met verschillende granulariteit en dynamische observaties. Aangedreven door SAME, presenteren we een veelzijdige agent die in staat is om zeven navigatietaken tegelijkertijd aan te pakken, die beter presteert dan of een zeer vergelijkbare prestatie behaalt ten opzichte van taakspecifieke agenten.
English
The academic field of learning instruction-guided visual navigation can be
generally categorized into high-level category-specific search and low-level
language-guided navigation, depending on the granularity of language
instruction, in which the former emphasizes the exploration process, while the
latter concentrates on following detailed textual commands. Despite the
differing focuses of these tasks, the underlying requirements of interpreting
instructions, comprehending the surroundings, and inferring action decisions
remain consistent. This paper consolidates diverse navigation tasks into a
unified and generic framework -- we investigate the core difficulties of
sharing general knowledge and exploiting task-specific capabilities in learning
navigation and propose a novel State-Adaptive Mixture of Experts (SAME) model
that effectively enables an agent to infer decisions based on
different-granularity language and dynamic observations. Powered by SAME, we
present a versatile agent capable of addressing seven navigation tasks
simultaneously that outperforms or achieves highly comparable performance to
task-specific agents.