AppAgent : Agents multimodaux en tant qu'utilisateurs de smartphones
AppAgent: Multimodal Agents as Smartphone Users
December 21, 2023
Auteurs: Chi Zhang, Zhao Yang, Jiaxuan Liu, Yucheng Han, Xin Chen, Zebiao Huang, Bin Fu, Gang Yu
cs.AI
Résumé
Les récentes avancées dans les modèles de langage de grande taille (LLMs) ont conduit à la création d'agents intelligents capables d'exécuter des tâches complexes. Cet article présente un nouveau cadre d'agent multimodal basé sur les LLMs, conçu pour opérer des applications smartphone. Notre cadre permet à l'agent de manipuler les applications smartphone à travers un espace d'actions simplifié, imitant des interactions humaines telles que le tapotement et le balayage. Cette approche novatrice contourne le besoin d'accès au back-end du système, élargissant ainsi son applicabilité à diverses applications. Au cœur de la fonctionnalité de notre agent se trouve sa méthode d'apprentissage innovante. L'agent apprend à naviguer et à utiliser de nouvelles applications soit par exploration autonome, soit en observant des démonstrations humaines. Ce processus génère une base de connaissances que l'agent consulte pour exécuter des tâches complexes à travers différentes applications. Pour démontrer la praticabilité de notre agent, nous avons mené des tests approfondis sur 50 tâches dans 10 applications différentes, incluant les réseaux sociaux, les emails, les cartes, les achats et des outils sophistiqués d'édition d'images. Les résultats confirment la compétence de notre agent dans la gestion d'une diversité de tâches de haut niveau.
English
Recent advancements in large language models (LLMs) have led to the creation
of intelligent agents capable of performing complex tasks. This paper
introduces a novel LLM-based multimodal agent framework designed to operate
smartphone applications. Our framework enables the agent to operate smartphone
applications through a simplified action space, mimicking human-like
interactions such as tapping and swiping. This novel approach bypasses the need
for system back-end access, thereby broadening its applicability across diverse
apps. Central to our agent's functionality is its innovative learning method.
The agent learns to navigate and use new apps either through autonomous
exploration or by observing human demonstrations. This process generates a
knowledge base that the agent refers to for executing complex tasks across
different applications. To demonstrate the practicality of our agent, we
conducted extensive testing over 50 tasks in 10 different applications,
including social media, email, maps, shopping, and sophisticated image editing
tools. The results affirm our agent's proficiency in handling a diverse array
of high-level tasks.