Mobile-Agent-v2: Mobiler Gerätebetriebsassistent mit effektiver Navigation durch Multi-Agenten-Zusammenarbeit

papers.abstract

Die Aufgaben zur Bedienung mobiler Geräte werden zunehmend zu einem beliebten Multi-Modalen KI-Anwendungsszenario. Aktuelle Multi-Modale Große Sprachmodelle (MLLMs), die durch ihre Trainingsdaten eingeschränkt sind, verfügen nicht über die Fähigkeit, effektiv als Bedienungshelfer zu fungieren. Stattdessen werden MLLM-basierte Agenten, die ihre Fähigkeiten durch Werkzeugaufrufe erweitern, allmählich auf dieses Szenario angewendet. Die beiden Hauptnavigationsherausforderungen bei Aufgaben zur Bedienung mobiler Geräte, die Navigation des Aufgabenfortschritts und die Fokussierung auf Inhalte, sind unter der Single-Agenten-Architektur bestehender Arbeiten erheblich kompliziert. Dies liegt an den überlangen Token-Sequenzen und dem verschachtelten Text-Bild-Datenformat, die die Leistung einschränken. Um diesen Navigationsherausforderungen effektiv zu begegnen, schlagen wir Mobile-Agent-v2 vor, eine Multi-Agenten-Architektur zur Unterstützung der Bedienung mobiler Geräte. Die Architektur umfasst drei Agenten: Planungsagent, Entscheidungsagent und Reflexionsagent. Der Planungsagent generiert den Aufgabenfortschritt, um die Navigation der Historieoperationen effizienter zu gestalten. Um den Fokus auf Inhalte zu behalten, entwerfen wir eine Speichereinheit, die sich mit dem Aufgabenfortschritt aktualisiert. Darüber hinaus beobachtet der Reflexionsagent die Ergebnisse jeder Operation und korrigiert etwaige Fehler bei fehlerhaften Operationen. Experimentelle Ergebnisse zeigen, dass Mobile-Agent-v2 im Vergleich zur Single-Agenten-Architektur von Mobile-Agent eine über 30%ige Verbesserung bei der Aufgabenerfüllung erzielt. Der Code ist unter https://github.com/X-PLUG/MobileAgent als Open-Source verfügbar.

English

Mobile device operation tasks are increasingly becoming a popular multi-modal AI application scenario. Current Multi-modal Large Language Models (MLLMs), constrained by their training data, lack the capability to function effectively as operation assistants. Instead, MLLM-based agents, which enhance capabilities through tool invocation, are gradually being applied to this scenario. However, the two major navigation challenges in mobile device operation tasks, task progress navigation and focus content navigation, are significantly complicated under the single-agent architecture of existing work. This is due to the overly long token sequences and the interleaved text-image data format, which limit performance. To address these navigation challenges effectively, we propose Mobile-Agent-v2, a multi-agent architecture for mobile device operation assistance. The architecture comprises three agents: planning agent, decision agent, and reflection agent. The planning agent generates task progress, making the navigation of history operations more efficient. To retain focus content, we design a memory unit that updates with task progress. Additionally, to correct erroneous operations, the reflection agent observes the outcomes of each operation and handles any mistakes accordingly. Experimental results indicate that Mobile-Agent-v2 achieves over a 30% improvement in task completion compared to the single-agent architecture of Mobile-Agent. The code is open-sourced at https://github.com/X-PLUG/MobileAgent.

Mobile-Agent-v2: Mobiler Gerätebetriebsassistent mit effektiver Navigation durch Multi-Agenten-Zusammenarbeit

Mobile-Agent-v2: Mobile Device Operation Assistant with Effective Navigation via Multi-Agent Collaboration

papers.abstract

Support