Mobile-Agent-v2 : Assistant d'opération sur appareils mobiles avec navigation efficace grâce à une collaboration multi-agent

papers.abstract

Les tâches d'opération sur appareils mobiles deviennent de plus en plus un scénario d'application multi-modale populaire pour l'IA. Les modèles de langage multi-modaux de grande taille (MLLMs) actuels, limités par leurs données d'entraînement, manquent de la capacité à fonctionner efficacement comme assistants d'opération. À la place, les agents basés sur MLLM, qui améliorent leurs capacités par l'invocation d'outils, sont progressivement appliqués à ce scénario. Cependant, les deux principaux défis de navigation dans les tâches d'opération sur appareils mobiles, la navigation dans la progression des tâches et la navigation dans le contenu focalisé, sont considérablement compliqués sous l'architecture mono-agent des travaux existants. Cela est dû aux séquences de tokens excessivement longues et au format de données texte-image entrelacé, qui limitent les performances. Pour relever efficacement ces défis de navigation, nous proposons Mobile-Agent-v2, une architecture multi-agent pour l'assistance aux opérations sur appareils mobiles. L'architecture comprend trois agents : l'agent de planification, l'agent de décision et l'agent de réflexion. L'agent de planification génère la progression des tâches, rendant la navigation dans l'historique des opérations plus efficace. Pour conserver le contenu focalisé, nous concevons une unité de mémoire qui se met à jour avec la progression des tâches. De plus, pour corriger les opérations erronées, l'agent de réflexion observe les résultats de chaque opération et traite les erreurs en conséquence. Les résultats expérimentaux indiquent que Mobile-Agent-v2 améliore de plus de 30 % l'accomplissement des tâches par rapport à l'architecture mono-agent de Mobile-Agent. Le code est open-source à l'adresse https://github.com/X-PLUG/MobileAgent.

English

Mobile device operation tasks are increasingly becoming a popular multi-modal AI application scenario. Current Multi-modal Large Language Models (MLLMs), constrained by their training data, lack the capability to function effectively as operation assistants. Instead, MLLM-based agents, which enhance capabilities through tool invocation, are gradually being applied to this scenario. However, the two major navigation challenges in mobile device operation tasks, task progress navigation and focus content navigation, are significantly complicated under the single-agent architecture of existing work. This is due to the overly long token sequences and the interleaved text-image data format, which limit performance. To address these navigation challenges effectively, we propose Mobile-Agent-v2, a multi-agent architecture for mobile device operation assistance. The architecture comprises three agents: planning agent, decision agent, and reflection agent. The planning agent generates task progress, making the navigation of history operations more efficient. To retain focus content, we design a memory unit that updates with task progress. Additionally, to correct erroneous operations, the reflection agent observes the outcomes of each operation and handles any mistakes accordingly. Experimental results indicate that Mobile-Agent-v2 achieves over a 30% improvement in task completion compared to the single-agent architecture of Mobile-Agent. The code is open-sourced at https://github.com/X-PLUG/MobileAgent.

Mobile-Agent-v2 : Assistant d'opération sur appareils mobiles avec navigation efficace grâce à une collaboration multi-agent

Mobile-Agent-v2: Mobile Device Operation Assistant with Effective Navigation via Multi-Agent Collaboration

papers.abstract

Support