AppAgent: Agentes multimodales como usuarios de smartphones
AppAgent: Multimodal Agents as Smartphone Users
December 21, 2023
Autores: Chi Zhang, Zhao Yang, Jiaxuan Liu, Yucheng Han, Xin Chen, Zebiao Huang, Bin Fu, Gang Yu
cs.AI
Resumen
Los recientes avances en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han llevado a la creación de agentes inteligentes capaces de realizar tareas complejas. Este artículo presenta un novedoso marco de agente multimodal basado en LLMs diseñado para operar aplicaciones de smartphones. Nuestro marco permite que el agente opere aplicaciones de smartphones a través de un espacio de acciones simplificado, imitando interacciones humanas como toques y deslizamientos. Este enfoque innovador elimina la necesidad de acceso al back-end del sistema, ampliando así su aplicabilidad en diversas aplicaciones. El núcleo de la funcionalidad de nuestro agente es su método de aprendizaje innovador. El agente aprende a navegar y usar nuevas aplicaciones ya sea mediante exploración autónoma o mediante la observación de demostraciones humanas. Este proceso genera una base de conocimientos a la que el agente recurre para ejecutar tareas complejas en diferentes aplicaciones. Para demostrar la practicidad de nuestro agente, realizamos pruebas exhaustivas en 50 tareas en 10 aplicaciones diferentes, incluyendo redes sociales, correo electrónico, mapas, compras y herramientas sofisticadas de edición de imágenes. Los resultados confirman la competencia de nuestro agente en el manejo de una amplia variedad de tareas de alto nivel.
English
Recent advancements in large language models (LLMs) have led to the creation
of intelligent agents capable of performing complex tasks. This paper
introduces a novel LLM-based multimodal agent framework designed to operate
smartphone applications. Our framework enables the agent to operate smartphone
applications through a simplified action space, mimicking human-like
interactions such as tapping and swiping. This novel approach bypasses the need
for system back-end access, thereby broadening its applicability across diverse
apps. Central to our agent's functionality is its innovative learning method.
The agent learns to navigate and use new apps either through autonomous
exploration or by observing human demonstrations. This process generates a
knowledge base that the agent refers to for executing complex tasks across
different applications. To demonstrate the practicality of our agent, we
conducted extensive testing over 50 tasks in 10 different applications,
including social media, email, maps, shopping, and sophisticated image editing
tools. The results affirm our agent's proficiency in handling a diverse array
of high-level tasks.