AppAgent: Agenti Multimodali come Utenti di Smartphone
AppAgent: Multimodal Agents as Smartphone Users
December 21, 2023
Autori: Chi Zhang, Zhao Yang, Jiaxuan Liu, Yucheng Han, Xin Chen, Zebiao Huang, Bin Fu, Gang Yu
cs.AI
Abstract
I recenti progressi nei modelli linguistici di grandi dimensioni (LLM) hanno portato alla creazione di agenti intelligenti in grado di eseguire compiti complessi. Questo articolo introduce un nuovo framework multimodale basato su LLM progettato per operare applicazioni per smartphone. Il nostro framework consente all'agente di utilizzare le applicazioni per smartphone attraverso uno spazio d'azione semplificato, imitando interazioni simili a quelle umane come il tocco e lo scorrimento. Questo approccio innovativo evita la necessità di accesso al back-end del sistema, ampliando così la sua applicabilità su diverse app. Al centro della funzionalità del nostro agente c'è il suo metodo di apprendimento innovativo. L'agente impara a navigare e utilizzare nuove app attraverso l'esplorazione autonoma o osservando dimostrazioni umane. Questo processo genera una base di conoscenza a cui l'agente fa riferimento per eseguire compiti complessi su diverse applicazioni. Per dimostrare la praticità del nostro agente, abbiamo condotto test estensivi su 50 compiti in 10 applicazioni diverse, inclusi social media, email, mappe, shopping e strumenti sofisticati di editing delle immagini. I risultati confermano la competenza del nostro agente nel gestire una vasta gamma di compiti di alto livello.
English
Recent advancements in large language models (LLMs) have led to the creation
of intelligent agents capable of performing complex tasks. This paper
introduces a novel LLM-based multimodal agent framework designed to operate
smartphone applications. Our framework enables the agent to operate smartphone
applications through a simplified action space, mimicking human-like
interactions such as tapping and swiping. This novel approach bypasses the need
for system back-end access, thereby broadening its applicability across diverse
apps. Central to our agent's functionality is its innovative learning method.
The agent learns to navigate and use new apps either through autonomous
exploration or by observing human demonstrations. This process generates a
knowledge base that the agent refers to for executing complex tasks across
different applications. To demonstrate the practicality of our agent, we
conducted extensive testing over 50 tasks in 10 different applications,
including social media, email, maps, shopping, and sophisticated image editing
tools. The results affirm our agent's proficiency in handling a diverse array
of high-level tasks.