ChatPaper.aiChatPaper

Mobile-Agent-v2: Assistente de Operação em Dispositivos Móveis com Navegação Eficaz por meio de Colaboração Multiagente

Mobile-Agent-v2: Mobile Device Operation Assistant with Effective Navigation via Multi-Agent Collaboration

June 3, 2024
Autores: Junyang Wang, Haiyang Xu, Haitao Jia, Xi Zhang, Ming Yan, Weizhou Shen, Ji Zhang, Fei Huang, Jitao Sang
cs.AI

Resumo

As tarefas de operação em dispositivos móveis estão se tornando cada vez mais um cenário popular para aplicações de IA multimodal. Os atuais Modelos de Linguagem de Grande Escala Multimodal (MLLMs), limitados por seus dados de treinamento, não possuem a capacidade de funcionar efetivamente como assistentes de operação. Em vez disso, agentes baseados em MLLMs, que aprimoram suas capacidades por meio da invocação de ferramentas, estão sendo gradualmente aplicados a esse cenário. No entanto, os dois principais desafios de navegação em tarefas de operação de dispositivos móveis, a navegação do progresso da tarefa e a navegação do conteúdo focado, são significativamente complicados sob a arquitetura de agente único dos trabalhos existentes. Isso se deve às sequências de tokens excessivamente longas e ao formato de dados intercalados de texto e imagem, que limitam o desempenho. Para abordar esses desafios de navegação de forma eficaz, propomos o Mobile-Agent-v2, uma arquitetura multiagente para assistência em operações de dispositivos móveis. A arquitetura compreende três agentes: agente de planejamento, agente de decisão e agente de reflexão. O agente de planejamento gera o progresso da tarefa, tornando a navegação das operações históricas mais eficiente. Para reter o conteúdo focado, projetamos uma unidade de memória que é atualizada com o progresso da tarefa. Além disso, para corrigir operações errôneas, o agente de reflexão observa os resultados de cada operação e trata quaisquer erros de acordo. Os resultados experimentais indicam que o Mobile-Agent-v2 alcança uma melhoria de mais de 30% na conclusão de tarefas em comparação com a arquitetura de agente único do Mobile-Agent. O código está disponível em código aberto em https://github.com/X-PLUG/MobileAgent.
English
Mobile device operation tasks are increasingly becoming a popular multi-modal AI application scenario. Current Multi-modal Large Language Models (MLLMs), constrained by their training data, lack the capability to function effectively as operation assistants. Instead, MLLM-based agents, which enhance capabilities through tool invocation, are gradually being applied to this scenario. However, the two major navigation challenges in mobile device operation tasks, task progress navigation and focus content navigation, are significantly complicated under the single-agent architecture of existing work. This is due to the overly long token sequences and the interleaved text-image data format, which limit performance. To address these navigation challenges effectively, we propose Mobile-Agent-v2, a multi-agent architecture for mobile device operation assistance. The architecture comprises three agents: planning agent, decision agent, and reflection agent. The planning agent generates task progress, making the navigation of history operations more efficient. To retain focus content, we design a memory unit that updates with task progress. Additionally, to correct erroneous operations, the reflection agent observes the outcomes of each operation and handles any mistakes accordingly. Experimental results indicate that Mobile-Agent-v2 achieves over a 30% improvement in task completion compared to the single-agent architecture of Mobile-Agent. The code is open-sourced at https://github.com/X-PLUG/MobileAgent.
PDF342December 12, 2024