Mobile-Agent-v2 : Assistant d'opération sur appareils mobiles avec navigation efficace grâce à une collaboration multi-agent
Mobile-Agent-v2: Mobile Device Operation Assistant with Effective Navigation via Multi-Agent Collaboration
June 3, 2024
Auteurs: Junyang Wang, Haiyang Xu, Haitao Jia, Xi Zhang, Ming Yan, Weizhou Shen, Ji Zhang, Fei Huang, Jitao Sang
cs.AI
Résumé
Les tâches d'opération sur appareils mobiles deviennent de plus en plus un scénario d'application multi-modale populaire pour l'IA. Les modèles de langage multi-modaux de grande taille (MLLMs) actuels, limités par leurs données d'entraînement, manquent de la capacité à fonctionner efficacement comme assistants d'opération. À la place, les agents basés sur MLLM, qui améliorent leurs capacités par l'invocation d'outils, sont progressivement appliqués à ce scénario. Cependant, les deux principaux défis de navigation dans les tâches d'opération sur appareils mobiles, la navigation dans la progression des tâches et la navigation dans le contenu focalisé, sont considérablement compliqués sous l'architecture mono-agent des travaux existants. Cela est dû aux séquences de tokens excessivement longues et au format de données texte-image entrelacé, qui limitent les performances. Pour relever efficacement ces défis de navigation, nous proposons Mobile-Agent-v2, une architecture multi-agent pour l'assistance aux opérations sur appareils mobiles. L'architecture comprend trois agents : l'agent de planification, l'agent de décision et l'agent de réflexion. L'agent de planification génère la progression des tâches, rendant la navigation dans l'historique des opérations plus efficace. Pour conserver le contenu focalisé, nous concevons une unité de mémoire qui se met à jour avec la progression des tâches. De plus, pour corriger les opérations erronées, l'agent de réflexion observe les résultats de chaque opération et traite les erreurs en conséquence. Les résultats expérimentaux indiquent que Mobile-Agent-v2 améliore de plus de 30 % l'accomplissement des tâches par rapport à l'architecture mono-agent de Mobile-Agent. Le code est open-source à l'adresse https://github.com/X-PLUG/MobileAgent.
English
Mobile device operation tasks are increasingly becoming a popular multi-modal
AI application scenario. Current Multi-modal Large Language Models (MLLMs),
constrained by their training data, lack the capability to function effectively
as operation assistants. Instead, MLLM-based agents, which enhance capabilities
through tool invocation, are gradually being applied to this scenario. However,
the two major navigation challenges in mobile device operation tasks, task
progress navigation and focus content navigation, are significantly complicated
under the single-agent architecture of existing work. This is due to the overly
long token sequences and the interleaved text-image data format, which limit
performance. To address these navigation challenges effectively, we propose
Mobile-Agent-v2, a multi-agent architecture for mobile device operation
assistance. The architecture comprises three agents: planning agent, decision
agent, and reflection agent. The planning agent generates task progress, making
the navigation of history operations more efficient. To retain focus content,
we design a memory unit that updates with task progress. Additionally, to
correct erroneous operations, the reflection agent observes the outcomes of
each operation and handles any mistakes accordingly. Experimental results
indicate that Mobile-Agent-v2 achieves over a 30% improvement in task
completion compared to the single-agent architecture of Mobile-Agent. The code
is open-sourced at https://github.com/X-PLUG/MobileAgent.Summary
AI-Generated Summary