MobA: Un sistema di agenti a due livelli per un'automazione efficiente dei compiti mobili
MobA: A Two-Level Agent System for Efficient Mobile Task Automation
October 17, 2024
Autori: Zichen Zhu, Hao Tang, Yansi Li, Kunyao Lan, Yixuan Jiang, Hao Zhou, Yixiao Wang, Situo Zhang, Liangtai Sun, Lu Chen, Kai Yu
cs.AI
Abstract
Gli attuali assistenti mobili sono limitati dalla dipendenza dalle API di sistema o faticano con istruzioni utente complesse e interfacce diverse a causa delle limitate capacità di comprensione e di decisione. Per affrontare queste sfide, proponiamo MobA, un nuovo Agente per telefoni cellulari alimentato da modelli di linguaggio multimodali di grandi dimensioni che migliorano le capacità di comprensione e pianificazione attraverso un sofisticato' architettura a due livelli. L'Agente Globale (GA) di alto livello è responsabile della comprensione dei comandi dell'utente, del tracciamento delle memorie storiche e della pianificazione delle attività. L'Agente Locale (LA) di basso livello prevede azioni dettagliate sotto forma di chiamate di funzione, guidate da sotto-attività e memoria del GA. L'integrazione di un Modulo di Riflessione consente un completamento efficiente dei compiti e permette al sistema di gestire compiti complessi precedentemente non visti. MobA dimostra significativi miglioramenti nell'efficienza dell'esecuzione dei compiti e nel tasso di completamento nelle valutazioni della vita reale, sottolineando il potenziale degli assistenti mobili potenziati da MLLM.
English
Current mobile assistants are limited by dependence on system APIs or
struggle with complex user instructions and diverse interfaces due to
restricted comprehension and decision-making abilities. To address these
challenges, we propose MobA, a novel Mobile phone Agent powered by multimodal
large language models that enhances comprehension and planning capabilities
through a sophisticated two-level agent architecture. The high-level Global
Agent (GA) is responsible for understanding user commands, tracking history
memories, and planning tasks. The low-level Local Agent (LA) predicts detailed
actions in the form of function calls, guided by sub-tasks and memory from the
GA. Integrating a Reflection Module allows for efficient task completion and
enables the system to handle previously unseen complex tasks. MobA demonstrates
significant improvements in task execution efficiency and completion rate in
real-life evaluations, underscoring the potential of MLLM-empowered mobile
assistants.Summary
AI-Generated Summary