Mobile-Agent-v2: Mobiel Apparaat Bedieningsassistent met Efficiënte Navigatie via Multi-Agent Samenwerking
Mobile-Agent-v2: Mobile Device Operation Assistant with Effective Navigation via Multi-Agent Collaboration
June 3, 2024
Auteurs: Junyang Wang, Haiyang Xu, Haitao Jia, Xi Zhang, Ming Yan, Weizhou Shen, Ji Zhang, Fei Huang, Jitao Sang
cs.AI
Samenvatting
Taken met mobiele apparaten worden steeds vaker een populair scenario voor multi-modale AI-toepassingen. Huidige Multi-modale Large Language Models (MLLMs), beperkt door hun trainingsdata, hebben niet het vermogen om effectief te functioneren als bedieningsassistenten. In plaats daarvan worden MLLM-gebaseerde agents, die hun capaciteiten vergroten door het aanroepen van tools, geleidelijk toegepast in dit scenario. Echter, de twee belangrijkste navigatie-uitdagingen in taken met mobiele apparaten, navigatie van de voortgang van de taak en navigatie van de focusinhoud, worden aanzienlijk gecompliceerd onder de single-agent architectuur van bestaand werk. Dit komt door de te lange tokenreeksen en het afwisselende tekst-beeld dataformaat, wat de prestaties beperkt. Om deze navigatie-uitdagingen effectief aan te pakken, stellen we Mobile-Agent-v2 voor, een multi-agent architectuur voor bedieningsassistentie van mobiele apparaten. De architectuur bestaat uit drie agents: een planningsagent, een beslissingsagent en een reflectieagent. De planningsagent genereert de voortgang van de taak, waardoor de navigatie door eerdere handelingen efficiënter wordt. Om de focusinhoud te behouden, hebben we een geheugeneenheid ontworpen die wordt bijgewerkt met de voortgang van de taak. Daarnaast observeert de reflectieagent de resultaten van elke handeling om foutieve operaties te corrigeren en eventuele fouten dienovereenkomstig af te handelen. Experimentele resultaten geven aan dat Mobile-Agent-v2 een verbetering van meer dan 30% bereikt in taakvoltooiing vergeleken met de single-agent architectuur van Mobile-Agent. De code is open-source beschikbaar op https://github.com/X-PLUG/MobileAgent.
English
Mobile device operation tasks are increasingly becoming a popular multi-modal
AI application scenario. Current Multi-modal Large Language Models (MLLMs),
constrained by their training data, lack the capability to function effectively
as operation assistants. Instead, MLLM-based agents, which enhance capabilities
through tool invocation, are gradually being applied to this scenario. However,
the two major navigation challenges in mobile device operation tasks, task
progress navigation and focus content navigation, are significantly complicated
under the single-agent architecture of existing work. This is due to the overly
long token sequences and the interleaved text-image data format, which limit
performance. To address these navigation challenges effectively, we propose
Mobile-Agent-v2, a multi-agent architecture for mobile device operation
assistance. The architecture comprises three agents: planning agent, decision
agent, and reflection agent. The planning agent generates task progress, making
the navigation of history operations more efficient. To retain focus content,
we design a memory unit that updates with task progress. Additionally, to
correct erroneous operations, the reflection agent observes the outcomes of
each operation and handles any mistakes accordingly. Experimental results
indicate that Mobile-Agent-v2 achieves over a 30% improvement in task
completion compared to the single-agent architecture of Mobile-Agent. The code
is open-sourced at https://github.com/X-PLUG/MobileAgent.