Mobile-Agent: Autonome Multi-Modale Mobiele Apparaat Agent met Visuele Waarneming
Mobile-Agent: Autonomous Multi-Modal Mobile Device Agent with Visual Perception
January 29, 2024
Auteurs: Junyang Wang, Haiyang Xu, Jiabo Ye, Ming Yan, Weizhou Shen, Ji Zhang, Fei Huang, Jitao Sang
cs.AI
Samenvatting
Een mobiel apparaat-agent gebaseerd op Multimodal Large Language Models (MLLM) wordt een steeds populairdere toepassing. In dit artikel introduceren we Mobile-Agent, een autonome multimodale mobiele apparaat-agent. Mobile-Agent maakt eerst gebruik van visuele perceptietools om de visuele en tekstuele elementen binnen de front-end interface van de app nauwkeurig te identificeren en te lokaliseren. Op basis van de waargenomen visuele context plant en deelt het vervolgens autonoom de complexe operationele taak op, en navigeert het stap voor stap door de mobiele apps via operaties. In tegenstelling tot eerdere oplossingen die afhankelijk zijn van XML-bestanden van apps of metadata van het mobiele systeem, biedt Mobile-Agent een grotere aanpassingsvermogen in diverse mobiele besturingsomgevingen op een visueel-centrische manier, waardoor de noodzaak voor systeemspecifieke aanpassingen wordt geëlimineerd. Om de prestaties van Mobile-Agent te beoordelen, hebben we Mobile-Eval geïntroduceerd, een benchmark voor het evalueren van mobiele apparaatoperaties. Op basis van Mobile-Eval hebben we een uitgebreide evaluatie van Mobile-Agent uitgevoerd. De experimentele resultaten tonen aan dat Mobile-Agent opmerkelijke nauwkeurigheid en voltooiingspercentages heeft bereikt. Zelfs bij uitdagende instructies, zoals multi-app operaties, kan Mobile-Agent nog steeds aan de vereisten voldoen. Code en model zullen worden openbaar gemaakt op https://github.com/X-PLUG/MobileAgent.
English
Mobile device agent based on Multimodal Large Language Models (MLLM) is
becoming a popular application. In this paper, we introduce Mobile-Agent, an
autonomous multi-modal mobile device agent. Mobile-Agent first leverages visual
perception tools to accurately identify and locate both the visual and textual
elements within the app's front-end interface. Based on the perceived vision
context, it then autonomously plans and decomposes the complex operation task,
and navigates the mobile Apps through operations step by step. Different from
previous solutions that rely on XML files of Apps or mobile system metadata,
Mobile-Agent allows for greater adaptability across diverse mobile operating
environments in a vision-centric way, thereby eliminating the necessity for
system-specific customizations. To assess the performance of Mobile-Agent, we
introduced Mobile-Eval, a benchmark for evaluating mobile device operations.
Based on Mobile-Eval, we conducted a comprehensive evaluation of Mobile-Agent.
The experimental results indicate that Mobile-Agent achieved remarkable
accuracy and completion rates. Even with challenging instructions, such as
multi-app operations, Mobile-Agent can still complete the requirements. Code
and model will be open-sourced at https://github.com/X-PLUG/MobileAgent.