AppAgent: Multimodale Agenten als Smartphone-Nutzer
AppAgent: Multimodal Agents as Smartphone Users
December 21, 2023
Autoren: Chi Zhang, Zhao Yang, Jiaxuan Liu, Yucheng Han, Xin Chen, Zebiao Huang, Bin Fu, Gang Yu
cs.AI
Zusammenfassung
Jüngste Fortschritte bei großen Sprachmodellen (LLMs) haben zur Entwicklung intelligenter Agenten geführt, die in der Lage sind, komplexe Aufgaben auszuführen. Dieses Papier stellt ein neuartiges, auf LLMs basierendes multimodales Agenten-Framework vor, das für den Betrieb von Smartphone-Anwendungen konzipiert ist. Unser Framework ermöglicht es dem Agenten, Smartphone-Anwendungen über einen vereinfachten Aktionsraum zu bedienen, wobei menschliche Interaktionen wie Tippen und Wischen nachgeahmt werden. Dieser innovative Ansatz umgeht die Notwendigkeit eines Zugriffs auf das System-Backend und erweitert somit die Anwendbarkeit über verschiedene Apps hinweg. Kern der Funktionalität unseres Agenten ist seine innovative Lernmethode. Der Agent lernt, neue Apps zu navigieren und zu nutzen, entweder durch autonome Exploration oder durch die Beobachtung menschlicher Demonstrationen. Dieser Prozess generiert eine Wissensbasis, auf die der Agent zurückgreift, um komplexe Aufgaben in verschiedenen Anwendungen auszuführen. Um die Praxistauglichkeit unseres Agenten zu demonstrieren, haben wir umfangreiche Tests über 50 Aufgaben in 10 verschiedenen Anwendungen durchgeführt, darunter soziale Medien, E-Mail, Karten, Einkaufen und anspruchsvolle Bildbearbeitungstools. Die Ergebnisse bestätigen die Fähigkeit unseres Agenten, eine Vielzahl von hochrangigen Aufgaben zu bewältigen.
English
Recent advancements in large language models (LLMs) have led to the creation
of intelligent agents capable of performing complex tasks. This paper
introduces a novel LLM-based multimodal agent framework designed to operate
smartphone applications. Our framework enables the agent to operate smartphone
applications through a simplified action space, mimicking human-like
interactions such as tapping and swiping. This novel approach bypasses the need
for system back-end access, thereby broadening its applicability across diverse
apps. Central to our agent's functionality is its innovative learning method.
The agent learns to navigate and use new apps either through autonomous
exploration or by observing human demonstrations. This process generates a
knowledge base that the agent refers to for executing complex tasks across
different applications. To demonstrate the practicality of our agent, we
conducted extensive testing over 50 tasks in 10 different applications,
including social media, email, maps, shopping, and sophisticated image editing
tools. The results affirm our agent's proficiency in handling a diverse array
of high-level tasks.