Mobile-Agent-v2: Mobiler Gerätebetriebsassistent mit effektiver Navigation durch Multi-Agenten-Zusammenarbeit
Mobile-Agent-v2: Mobile Device Operation Assistant with Effective Navigation via Multi-Agent Collaboration
June 3, 2024
Autoren: Junyang Wang, Haiyang Xu, Haitao Jia, Xi Zhang, Ming Yan, Weizhou Shen, Ji Zhang, Fei Huang, Jitao Sang
cs.AI
Zusammenfassung
Die Aufgaben zur Bedienung mobiler Geräte werden zunehmend zu einem beliebten Multi-Modalen KI-Anwendungsszenario. Aktuelle Multi-Modale Große Sprachmodelle (MLLMs), die durch ihre Trainingsdaten eingeschränkt sind, verfügen nicht über die Fähigkeit, effektiv als Bedienungshelfer zu fungieren. Stattdessen werden MLLM-basierte Agenten, die ihre Fähigkeiten durch Werkzeugaufrufe erweitern, allmählich auf dieses Szenario angewendet. Die beiden Hauptnavigationsherausforderungen bei Aufgaben zur Bedienung mobiler Geräte, die Navigation des Aufgabenfortschritts und die Fokussierung auf Inhalte, sind unter der Single-Agenten-Architektur bestehender Arbeiten erheblich kompliziert. Dies liegt an den überlangen Token-Sequenzen und dem verschachtelten Text-Bild-Datenformat, die die Leistung einschränken. Um diesen Navigationsherausforderungen effektiv zu begegnen, schlagen wir Mobile-Agent-v2 vor, eine Multi-Agenten-Architektur zur Unterstützung der Bedienung mobiler Geräte. Die Architektur umfasst drei Agenten: Planungsagent, Entscheidungsagent und Reflexionsagent. Der Planungsagent generiert den Aufgabenfortschritt, um die Navigation der Historieoperationen effizienter zu gestalten. Um den Fokus auf Inhalte zu behalten, entwerfen wir eine Speichereinheit, die sich mit dem Aufgabenfortschritt aktualisiert. Darüber hinaus beobachtet der Reflexionsagent die Ergebnisse jeder Operation und korrigiert etwaige Fehler bei fehlerhaften Operationen. Experimentelle Ergebnisse zeigen, dass Mobile-Agent-v2 im Vergleich zur Single-Agenten-Architektur von Mobile-Agent eine über 30%ige Verbesserung bei der Aufgabenerfüllung erzielt. Der Code ist unter https://github.com/X-PLUG/MobileAgent als Open-Source verfügbar.
English
Mobile device operation tasks are increasingly becoming a popular multi-modal
AI application scenario. Current Multi-modal Large Language Models (MLLMs),
constrained by their training data, lack the capability to function effectively
as operation assistants. Instead, MLLM-based agents, which enhance capabilities
through tool invocation, are gradually being applied to this scenario. However,
the two major navigation challenges in mobile device operation tasks, task
progress navigation and focus content navigation, are significantly complicated
under the single-agent architecture of existing work. This is due to the overly
long token sequences and the interleaved text-image data format, which limit
performance. To address these navigation challenges effectively, we propose
Mobile-Agent-v2, a multi-agent architecture for mobile device operation
assistance. The architecture comprises three agents: planning agent, decision
agent, and reflection agent. The planning agent generates task progress, making
the navigation of history operations more efficient. To retain focus content,
we design a memory unit that updates with task progress. Additionally, to
correct erroneous operations, the reflection agent observes the outcomes of
each operation and handles any mistakes accordingly. Experimental results
indicate that Mobile-Agent-v2 achieves over a 30% improvement in task
completion compared to the single-agent architecture of Mobile-Agent. The code
is open-sourced at https://github.com/X-PLUG/MobileAgent.Summary
AI-Generated Summary