Mobile-Agent-v2: Mobiel Apparaat Bedieningsassistent met Efficiënte Navigatie via Multi-Agent Samenwerking

Samenvatting

Taken met mobiele apparaten worden steeds vaker een populair scenario voor multi-modale AI-toepassingen. Huidige Multi-modale Large Language Models (MLLMs), beperkt door hun trainingsdata, hebben niet het vermogen om effectief te functioneren als bedieningsassistenten. In plaats daarvan worden MLLM-gebaseerde agents, die hun capaciteiten vergroten door het aanroepen van tools, geleidelijk toegepast in dit scenario. Echter, de twee belangrijkste navigatie-uitdagingen in taken met mobiele apparaten, navigatie van de voortgang van de taak en navigatie van de focusinhoud, worden aanzienlijk gecompliceerd onder de single-agent architectuur van bestaand werk. Dit komt door de te lange tokenreeksen en het afwisselende tekst-beeld dataformaat, wat de prestaties beperkt. Om deze navigatie-uitdagingen effectief aan te pakken, stellen we Mobile-Agent-v2 voor, een multi-agent architectuur voor bedieningsassistentie van mobiele apparaten. De architectuur bestaat uit drie agents: een planningsagent, een beslissingsagent en een reflectieagent. De planningsagent genereert de voortgang van de taak, waardoor de navigatie door eerdere handelingen efficiënter wordt. Om de focusinhoud te behouden, hebben we een geheugeneenheid ontworpen die wordt bijgewerkt met de voortgang van de taak. Daarnaast observeert de reflectieagent de resultaten van elke handeling om foutieve operaties te corrigeren en eventuele fouten dienovereenkomstig af te handelen. Experimentele resultaten geven aan dat Mobile-Agent-v2 een verbetering van meer dan 30% bereikt in taakvoltooiing vergeleken met de single-agent architectuur van Mobile-Agent. De code is open-source beschikbaar op https://github.com/X-PLUG/MobileAgent.

English

Mobile device operation tasks are increasingly becoming a popular multi-modal AI application scenario. Current Multi-modal Large Language Models (MLLMs), constrained by their training data, lack the capability to function effectively as operation assistants. Instead, MLLM-based agents, which enhance capabilities through tool invocation, are gradually being applied to this scenario. However, the two major navigation challenges in mobile device operation tasks, task progress navigation and focus content navigation, are significantly complicated under the single-agent architecture of existing work. This is due to the overly long token sequences and the interleaved text-image data format, which limit performance. To address these navigation challenges effectively, we propose Mobile-Agent-v2, a multi-agent architecture for mobile device operation assistance. The architecture comprises three agents: planning agent, decision agent, and reflection agent. The planning agent generates task progress, making the navigation of history operations more efficient. To retain focus content, we design a memory unit that updates with task progress. Additionally, to correct erroneous operations, the reflection agent observes the outcomes of each operation and handles any mistakes accordingly. Experimental results indicate that Mobile-Agent-v2 achieves over a 30% improvement in task completion compared to the single-agent architecture of Mobile-Agent. The code is open-sourced at https://github.com/X-PLUG/MobileAgent.

Mobile-Agent-v2: Mobiel Apparaat Bedieningsassistent met Efficiënte Navigatie via Multi-Agent Samenwerking

Mobile-Agent-v2: Mobile Device Operation Assistant with Effective Navigation via Multi-Agent Collaboration

Samenvatting

Support