AppAgent: Multimodale Agents als Smartphonegebruikers
AppAgent: Multimodal Agents as Smartphone Users
December 21, 2023
Auteurs: Chi Zhang, Zhao Yang, Jiaxuan Liu, Yucheng Han, Xin Chen, Zebiao Huang, Bin Fu, Gang Yu
cs.AI
Samenvatting
Recente vooruitgang in grote taalmodellen (LLMs) heeft geleid tot de ontwikkeling van intelligente agents die complexe taken kunnen uitvoeren. Dit artikel introduceert een nieuw LLM-gebaseerd multimodaal agentframework dat is ontworpen om smartphoneapplicaties te bedienen. Ons framework stelt de agent in staat om smartphoneapplicaties te bedienen via een vereenvoudigde actieruimte, waarbij mensachtige interacties zoals tikken en vegen worden nagebootst. Deze nieuwe aanpak omzeilt de noodzaak van toegang tot het systeem-back-end, waardoor de toepasbaarheid ervan over diverse apps wordt vergroot. Centraal in de functionaliteit van onze agent staat zijn innovatieve leermethode. De agent leert om nieuwe apps te navigeren en te gebruiken door middel van autonome verkenning of door het observeren van menselijke demonstraties. Dit proces genereert een kennisbasis waar de agent naar verwijst voor het uitvoeren van complexe taken in verschillende applicaties. Om de praktische bruikbaarheid van onze agent aan te tonen, hebben we uitgebreide tests uitgevoerd over 50 taken in 10 verschillende applicaties, waaronder sociale media, e-mail, kaarten, winkelen en geavanceerde beeldbewerkingsgereedschappen. De resultaten bevestigen de vaardigheid van onze agent in het uitvoeren van een diverse reeks hoogwaardige taken.
English
Recent advancements in large language models (LLMs) have led to the creation
of intelligent agents capable of performing complex tasks. This paper
introduces a novel LLM-based multimodal agent framework designed to operate
smartphone applications. Our framework enables the agent to operate smartphone
applications through a simplified action space, mimicking human-like
interactions such as tapping and swiping. This novel approach bypasses the need
for system back-end access, thereby broadening its applicability across diverse
apps. Central to our agent's functionality is its innovative learning method.
The agent learns to navigate and use new apps either through autonomous
exploration or by observing human demonstrations. This process generates a
knowledge base that the agent refers to for executing complex tasks across
different applications. To demonstrate the practicality of our agent, we
conducted extensive testing over 50 tasks in 10 different applications,
including social media, email, maps, shopping, and sophisticated image editing
tools. The results affirm our agent's proficiency in handling a diverse array
of high-level tasks.