Mobile-Agent: Agente Autónomo Multimodal para Dispositivos Móviles con Percepción Visual
Mobile-Agent: Autonomous Multi-Modal Mobile Device Agent with Visual Perception
January 29, 2024
Autores: Junyang Wang, Haiyang Xu, Jiabo Ye, Ming Yan, Weizhou Shen, Ji Zhang, Fei Huang, Jitao Sang
cs.AI
Resumen
El agente de dispositivos móviles basado en Modelos de Lenguaje Multimodal de Gran Escala (MLLM) se está convirtiendo en una aplicación popular. En este artículo, presentamos Mobile-Agent, un agente autónomo multimodal para dispositivos móviles. Mobile-Agent primero utiliza herramientas de percepción visual para identificar y localizar con precisión tanto los elementos visuales como textuales dentro de la interfaz frontal de la aplicación. Basándose en el contexto visual percibido, planifica y descompone de manera autónoma la tarea de operación compleja, y navega por las aplicaciones móviles a través de operaciones paso a paso. A diferencia de soluciones anteriores que dependen de archivos XML de las aplicaciones o metadatos del sistema móvil, Mobile-Agent permite una mayor adaptabilidad en diversos entornos operativos móviles de manera centrada en la visión, eliminando así la necesidad de personalizaciones específicas del sistema. Para evaluar el rendimiento de Mobile-Agent, introdujimos Mobile-Eval, un punto de referencia para evaluar las operaciones de dispositivos móviles. Basándonos en Mobile-Eval, realizamos una evaluación exhaustiva de Mobile-Agent. Los resultados experimentales indican que Mobile-Agent logró una precisión y tasas de finalización notables. Incluso con instrucciones desafiantes, como operaciones multi-aplicación, Mobile-Agent aún puede completar los requisitos. El código y el modelo se publicarán en https://github.com/X-PLUG/MobileAgent.
English
Mobile device agent based on Multimodal Large Language Models (MLLM) is
becoming a popular application. In this paper, we introduce Mobile-Agent, an
autonomous multi-modal mobile device agent. Mobile-Agent first leverages visual
perception tools to accurately identify and locate both the visual and textual
elements within the app's front-end interface. Based on the perceived vision
context, it then autonomously plans and decomposes the complex operation task,
and navigates the mobile Apps through operations step by step. Different from
previous solutions that rely on XML files of Apps or mobile system metadata,
Mobile-Agent allows for greater adaptability across diverse mobile operating
environments in a vision-centric way, thereby eliminating the necessity for
system-specific customizations. To assess the performance of Mobile-Agent, we
introduced Mobile-Eval, a benchmark for evaluating mobile device operations.
Based on Mobile-Eval, we conducted a comprehensive evaluation of Mobile-Agent.
The experimental results indicate that Mobile-Agent achieved remarkable
accuracy and completion rates. Even with challenging instructions, such as
multi-app operations, Mobile-Agent can still complete the requirements. Code
and model will be open-sourced at https://github.com/X-PLUG/MobileAgent.