MobA: Un sistema de agentes de dos niveles para la automatización eficiente de tareas móviles
MobA: A Two-Level Agent System for Efficient Mobile Task Automation
October 17, 2024
Autores: Zichen Zhu, Hao Tang, Yansi Li, Kunyao Lan, Yixuan Jiang, Hao Zhou, Yixiao Wang, Situo Zhang, Liangtai Sun, Lu Chen, Kai Yu
cs.AI
Resumen
Los asistentes móviles actuales se ven limitados por su dependencia de las API del sistema o tienen dificultades con instrucciones de usuario complejas y diversas interfaces debido a capacidades restringidas de comprensión y toma de decisiones. Para abordar estos desafíos, proponemos MobA, un novedoso Agente de Teléfono Móvil impulsado por modelos de lenguaje multimodales que mejora las capacidades de comprensión y planificación a través de una sofisticada arquitectura de agente de dos niveles. El Agente Global (GA) de alto nivel es responsable de entender los comandos del usuario, rastrear memorias históricas y planificar tareas. El Agente Local (LA) de bajo nivel predice acciones detalladas en forma de llamadas a funciones, guiado por subtareas y memoria del GA. La integración de un Módulo de Reflexión permite una finalización eficiente de tareas y capacita al sistema para manejar tareas complejas no vistas previamente. MobA demuestra mejoras significativas en la eficiencia de ejecución de tareas y la tasa de finalización en evaluaciones de la vida real, subrayando el potencial de los asistentes móviles potenciados por MLLM.
English
Current mobile assistants are limited by dependence on system APIs or
struggle with complex user instructions and diverse interfaces due to
restricted comprehension and decision-making abilities. To address these
challenges, we propose MobA, a novel Mobile phone Agent powered by multimodal
large language models that enhances comprehension and planning capabilities
through a sophisticated two-level agent architecture. The high-level Global
Agent (GA) is responsible for understanding user commands, tracking history
memories, and planning tasks. The low-level Local Agent (LA) predicts detailed
actions in the form of function calls, guided by sub-tasks and memory from the
GA. Integrating a Reflection Module allows for efficient task completion and
enables the system to handle previously unseen complex tasks. MobA demonstrates
significant improvements in task execution efficiency and completion rate in
real-life evaluations, underscoring the potential of MLLM-empowered mobile
assistants.Summary
AI-Generated Summary