ChatPaper.aiChatPaper

MobA: Un sistema di agenti a due livelli per un'automazione efficiente dei compiti mobili

MobA: A Two-Level Agent System for Efficient Mobile Task Automation

October 17, 2024
Autori: Zichen Zhu, Hao Tang, Yansi Li, Kunyao Lan, Yixuan Jiang, Hao Zhou, Yixiao Wang, Situo Zhang, Liangtai Sun, Lu Chen, Kai Yu
cs.AI

Abstract

Gli attuali assistenti mobili sono limitati dalla dipendenza dalle API di sistema o faticano con istruzioni utente complesse e interfacce diverse a causa delle limitate capacità di comprensione e di decisione. Per affrontare queste sfide, proponiamo MobA, un nuovo Agente per telefoni cellulari alimentato da modelli di linguaggio multimodali di grandi dimensioni che migliorano le capacità di comprensione e pianificazione attraverso un sofisticato' architettura a due livelli. L'Agente Globale (GA) di alto livello è responsabile della comprensione dei comandi dell'utente, del tracciamento delle memorie storiche e della pianificazione delle attività. L'Agente Locale (LA) di basso livello prevede azioni dettagliate sotto forma di chiamate di funzione, guidate da sotto-attività e memoria del GA. L'integrazione di un Modulo di Riflessione consente un completamento efficiente dei compiti e permette al sistema di gestire compiti complessi precedentemente non visti. MobA dimostra significativi miglioramenti nell'efficienza dell'esecuzione dei compiti e nel tasso di completamento nelle valutazioni della vita reale, sottolineando il potenziale degli assistenti mobili potenziati da MLLM.
English
Current mobile assistants are limited by dependence on system APIs or struggle with complex user instructions and diverse interfaces due to restricted comprehension and decision-making abilities. To address these challenges, we propose MobA, a novel Mobile phone Agent powered by multimodal large language models that enhances comprehension and planning capabilities through a sophisticated two-level agent architecture. The high-level Global Agent (GA) is responsible for understanding user commands, tracking history memories, and planning tasks. The low-level Local Agent (LA) predicts detailed actions in the form of function calls, guided by sub-tasks and memory from the GA. Integrating a Reflection Module allows for efficient task completion and enables the system to handle previously unseen complex tasks. MobA demonstrates significant improvements in task execution efficiency and completion rate in real-life evaluations, underscoring the potential of MLLM-empowered mobile assistants.

Summary

AI-Generated Summary

PDF333November 16, 2024