Mobile-Agent-v2: Assistente per le Operazioni su Dispositivi Mobili con Navigazione Efficace tramite Collaborazione Multi-Agente
Mobile-Agent-v2: Mobile Device Operation Assistant with Effective Navigation via Multi-Agent Collaboration
June 3, 2024
Autori: Junyang Wang, Haiyang Xu, Haitao Jia, Xi Zhang, Ming Yan, Weizhou Shen, Ji Zhang, Fei Huang, Jitao Sang
cs.AI
Abstract
Le attività operative sui dispositivi mobili stanno diventando sempre più uno scenario popolare per le applicazioni multi-modali dell'IA. Gli attuali Modelli Linguistici Multi-modali di Grande Scala (MLLMs), limitati dai loro dati di addestramento, non possiedono la capacità di funzionare efficacemente come assistenti operativi. Al contrario, gli agenti basati su MLLM, che potenziano le proprie capacità attraverso l'invocazione di strumenti, stanno gradualmente venendo applicati a questo scenario. Tuttavia, le due principali sfide di navigazione nelle attività operative sui dispositivi mobili, la navigazione del progresso del compito e la navigazione del contenuto in primo piano, risultano significativamente complicate nell'architettura a singolo agente dei lavori esistenti. Ciò è dovuto alle sequenze di token eccessivamente lunghe e al formato intervallato di dati testo-immagine, che limitano le prestazioni. Per affrontare efficacemente queste sfide di navigazione, proponiamo Mobile-Agent-v2, un'architettura multi-agente per l'assistenza nelle operazioni sui dispositivi mobili. L'architettura comprende tre agenti: agente di pianificazione, agente decisionale e agente di riflessione. L'agente di pianificazione genera il progresso del compito, rendendo più efficiente la navigazione delle operazioni storiche. Per mantenere il contenuto in primo piano, progettiamo un'unità di memoria che si aggiorna con il progresso del compito. Inoltre, per correggere le operazioni errate, l'agente di riflessione osserva i risultati di ciascuna operazione e gestisce eventuali errori di conseguenza. I risultati sperimentali indicano che Mobile-Agent-v2 raggiunge un miglioramento superiore al 30% nel completamento dei compiti rispetto all'architettura a singolo agente di Mobile-Agent. Il codice è open-source all'indirizzo https://github.com/X-PLUG/MobileAgent.
English
Mobile device operation tasks are increasingly becoming a popular multi-modal
AI application scenario. Current Multi-modal Large Language Models (MLLMs),
constrained by their training data, lack the capability to function effectively
as operation assistants. Instead, MLLM-based agents, which enhance capabilities
through tool invocation, are gradually being applied to this scenario. However,
the two major navigation challenges in mobile device operation tasks, task
progress navigation and focus content navigation, are significantly complicated
under the single-agent architecture of existing work. This is due to the overly
long token sequences and the interleaved text-image data format, which limit
performance. To address these navigation challenges effectively, we propose
Mobile-Agent-v2, a multi-agent architecture for mobile device operation
assistance. The architecture comprises three agents: planning agent, decision
agent, and reflection agent. The planning agent generates task progress, making
the navigation of history operations more efficient. To retain focus content,
we design a memory unit that updates with task progress. Additionally, to
correct erroneous operations, the reflection agent observes the outcomes of
each operation and handles any mistakes accordingly. Experimental results
indicate that Mobile-Agent-v2 achieves over a 30% improvement in task
completion compared to the single-agent architecture of Mobile-Agent. The code
is open-sourced at https://github.com/X-PLUG/MobileAgent.