ChatPaper.aiChatPaper

Mobile-Agent: 視覚知覚を備えた自律型マルチモーダルモバイルデバイスエージェント

Mobile-Agent: Autonomous Multi-Modal Mobile Device Agent with Visual Perception

January 29, 2024
著者: Junyang Wang, Haiyang Xu, Jiabo Ye, Ming Yan, Weizhou Shen, Ji Zhang, Fei Huang, Jitao Sang
cs.AI

要旨

マルチモーダル大規模言語モデル(MLLM)に基づくモバイルデバイスエージェントが、最近注目を集めるアプリケーションとなっています。本論文では、Mobile-Agentという自律型マルチモーダルモバイルデバイスエージェントを紹介します。Mobile-Agentはまず、視覚的知覚ツールを活用して、アプリのフロントエンドインターフェース内の視覚的およびテキスト要素を正確に識別し、位置特定します。認識された視覚コンテキストに基づいて、複雑な操作タスクを自律的に計画・分解し、ステップバイステップでモバイルアプリを操作します。従来のアプリのXMLファイルやモバイルシステムのメタデータに依存するソリューションとは異なり、Mobile-Agentは視覚中心のアプローチにより、多様なモバイル操作環境への高い適応性を実現し、システム固有のカスタマイズの必要性を排除します。Mobile-Agentの性能を評価するために、モバイルデバイス操作を評価するベンチマークであるMobile-Evalを導入しました。Mobile-Evalに基づき、Mobile-Agentの包括的な評価を実施しました。実験結果は、Mobile-Agentが高い精度と完了率を達成したことを示しています。複数アプリの操作といった難しい指示に対しても、Mobile-Agentは要件を満たすことができます。コードとモデルはhttps://github.com/X-PLUG/MobileAgentでオープンソース化されます。
English
Mobile device agent based on Multimodal Large Language Models (MLLM) is becoming a popular application. In this paper, we introduce Mobile-Agent, an autonomous multi-modal mobile device agent. Mobile-Agent first leverages visual perception tools to accurately identify and locate both the visual and textual elements within the app's front-end interface. Based on the perceived vision context, it then autonomously plans and decomposes the complex operation task, and navigates the mobile Apps through operations step by step. Different from previous solutions that rely on XML files of Apps or mobile system metadata, Mobile-Agent allows for greater adaptability across diverse mobile operating environments in a vision-centric way, thereby eliminating the necessity for system-specific customizations. To assess the performance of Mobile-Agent, we introduced Mobile-Eval, a benchmark for evaluating mobile device operations. Based on Mobile-Eval, we conducted a comprehensive evaluation of Mobile-Agent. The experimental results indicate that Mobile-Agent achieved remarkable accuracy and completion rates. Even with challenging instructions, such as multi-app operations, Mobile-Agent can still complete the requirements. Code and model will be open-sourced at https://github.com/X-PLUG/MobileAgent.
PDF214December 15, 2024