ChatPaper.aiChatPaper

AppAgent: Agentes Multimodais como Usuários de Smartphones

AppAgent: Multimodal Agents as Smartphone Users

December 21, 2023
Autores: Chi Zhang, Zhao Yang, Jiaxuan Liu, Yucheng Han, Xin Chen, Zebiao Huang, Bin Fu, Gang Yu
cs.AI

Resumo

Avanços recentes em modelos de linguagem de grande escala (LLMs) levaram à criação de agentes inteligentes capazes de realizar tarefas complexas. Este artigo apresenta uma nova estrutura de agente multimodal baseada em LLM, projetada para operar aplicativos de smartphone. Nossa estrutura permite que o agente opere aplicativos de smartphone por meio de um espaço de ação simplificado, imitando interações humanas, como toques e deslizes. Essa abordagem inovadora elimina a necessidade de acesso ao back-end do sistema, ampliando assim sua aplicabilidade em diversos aplicativos. Central para a funcionalidade do nosso agente é o seu método de aprendizado inovador. O agente aprende a navegar e usar novos aplicativos por meio de exploração autônoma ou observando demonstrações humanas. Esse processo gera uma base de conhecimento que o agente consulta para executar tarefas complexas em diferentes aplicativos. Para demonstrar a praticidade do nosso agente, realizamos testes extensivos em 50 tarefas em 10 aplicativos diferentes, incluindo redes sociais, e-mail, mapas, compras e ferramentas sofisticadas de edição de imagens. Os resultados confirmam a proficiência do nosso agente no manuseio de uma ampla variedade de tarefas de alto nível.
English
Recent advancements in large language models (LLMs) have led to the creation of intelligent agents capable of performing complex tasks. This paper introduces a novel LLM-based multimodal agent framework designed to operate smartphone applications. Our framework enables the agent to operate smartphone applications through a simplified action space, mimicking human-like interactions such as tapping and swiping. This novel approach bypasses the need for system back-end access, thereby broadening its applicability across diverse apps. Central to our agent's functionality is its innovative learning method. The agent learns to navigate and use new apps either through autonomous exploration or by observing human demonstrations. This process generates a knowledge base that the agent refers to for executing complex tasks across different applications. To demonstrate the practicality of our agent, we conducted extensive testing over 50 tasks in 10 different applications, including social media, email, maps, shopping, and sophisticated image editing tools. The results affirm our agent's proficiency in handling a diverse array of high-level tasks.
PDF542December 15, 2024