Mobile-Agent-v2: Asistente de Operaciones en Dispositivos Móviles con Navegación Efectiva mediante Colaboración Multiagente
Mobile-Agent-v2: Mobile Device Operation Assistant with Effective Navigation via Multi-Agent Collaboration
June 3, 2024
Autores: Junyang Wang, Haiyang Xu, Haitao Jia, Xi Zhang, Ming Yan, Weizhou Shen, Ji Zhang, Fei Huang, Jitao Sang
cs.AI
Resumen
Las tareas de operación en dispositivos móviles se están convirtiendo cada vez más en un escenario popular para aplicaciones de IA multimodal. Los modelos de lenguaje multimodal de gran escala (MLLMs) actuales, limitados por sus datos de entrenamiento, carecen de la capacidad para funcionar eficazmente como asistentes de operación. En su lugar, los agentes basados en MLLMs, que mejoran sus capacidades mediante la invocación de herramientas, están siendo aplicados gradualmente a este escenario. Sin embargo, los dos principales desafíos de navegación en las tareas de operación de dispositivos móviles, la navegación del progreso de la tarea y la navegación del contenido de enfoque, se complican significativamente bajo la arquitectura de agente único del trabajo existente. Esto se debe a las secuencias de tokens excesivamente largas y al formato de datos intercalados de texto e imagen, lo que limita el rendimiento. Para abordar estos desafíos de navegación de manera efectiva, proponemos Mobile-Agent-v2, una arquitectura multiagente para la asistencia en la operación de dispositivos móviles. La arquitectura consta de tres agentes: agente de planificación, agente de decisión y agente de reflexión. El agente de planificación genera el progreso de la tarea, haciendo que la navegación de las operaciones históricas sea más eficiente. Para retener el contenido de enfoque, diseñamos una unidad de memoria que se actualiza con el progreso de la tarea. Además, para corregir operaciones erróneas, el agente de reflexión observa los resultados de cada operación y maneja los errores en consecuencia. Los resultados experimentales indican que Mobile-Agent-v2 logra una mejora de más del 30% en la finalización de tareas en comparación con la arquitectura de agente único de Mobile-Agent. El código es de código abierto en https://github.com/X-PLUG/MobileAgent.
English
Mobile device operation tasks are increasingly becoming a popular multi-modal
AI application scenario. Current Multi-modal Large Language Models (MLLMs),
constrained by their training data, lack the capability to function effectively
as operation assistants. Instead, MLLM-based agents, which enhance capabilities
through tool invocation, are gradually being applied to this scenario. However,
the two major navigation challenges in mobile device operation tasks, task
progress navigation and focus content navigation, are significantly complicated
under the single-agent architecture of existing work. This is due to the overly
long token sequences and the interleaved text-image data format, which limit
performance. To address these navigation challenges effectively, we propose
Mobile-Agent-v2, a multi-agent architecture for mobile device operation
assistance. The architecture comprises three agents: planning agent, decision
agent, and reflection agent. The planning agent generates task progress, making
the navigation of history operations more efficient. To retain focus content,
we design a memory unit that updates with task progress. Additionally, to
correct erroneous operations, the reflection agent observes the outcomes of
each operation and handles any mistakes accordingly. Experimental results
indicate that Mobile-Agent-v2 achieves over a 30% improvement in task
completion compared to the single-agent architecture of Mobile-Agent. The code
is open-sourced at https://github.com/X-PLUG/MobileAgent.Summary
AI-Generated Summary