ChatPaper.aiChatPaper

PC-Agent: Um Framework Hierárquico de Colaboração Multi-Agente para Automação de Tarefas Complexas em PC

PC-Agent: A Hierarchical Multi-Agent Collaboration Framework for Complex Task Automation on PC

February 20, 2025
Autores: Haowei Liu, Xi Zhang, Haiyang Xu, Yuyang Wanyan, Junyang Wang, Ming Yan, Ji Zhang, Chunfeng Yuan, Changsheng Xu, Weiming Hu, Fei Huang
cs.AI

Resumo

No campo de agentes de interface gráfica baseados em MLLM, em comparação com smartphones, o cenário de PC não apenas apresenta um ambiente interativo mais complexo, mas também envolve fluxos de trabalho intra e inter aplicativos mais intrincados. Para abordar esses problemas, propomos uma estrutura de agente hierárquica chamada PC-Agent. Especificamente, do ponto de vista da percepção, desenvolvemos um Módulo de Percepção Ativa (APM) para superar as capacidades inadequadas dos MLLMs atuais em perceber o conteúdo de capturas de tela. Do ponto de vista da tomada de decisão, para lidar de forma mais eficaz com instruções complexas do usuário e subtarefas interdependentes, propomos uma arquitetura de colaboração multiagente hierárquica que decompõe os processos de tomada de decisão em níveis de Instrução-Subtarefa-Ação. Dentro dessa arquitetura, três agentes (ou seja, Gerente, Progresso e Decisão) são configurados para decomposição de instruções, acompanhamento de progresso e tomada de decisão passo a passo, respectivamente. Além disso, um agente de Reflexão é adotado para permitir feedback e ajuste de erros de baixo para cima em tempo hábil. Também introduzimos um novo benchmark chamado PC-Eval com 25 instruções complexas do mundo real. Os resultados empíricos no PC-Eval mostram que nosso PC-Agent alcança uma melhoria absoluta de 32% na taxa de sucesso de tarefas em relação aos métodos state-of-the-art anteriores. O código estará publicamente disponível.
English
In the field of MLLM-based GUI agents, compared to smartphones, the PC scenario not only features a more complex interactive environment, but also involves more intricate intra- and inter-app workflows. To address these issues, we propose a hierarchical agent framework named PC-Agent. Specifically, from the perception perspective, we devise an Active Perception Module (APM) to overcome the inadequate abilities of current MLLMs in perceiving screenshot content. From the decision-making perspective, to handle complex user instructions and interdependent subtasks more effectively, we propose a hierarchical multi-agent collaboration architecture that decomposes decision-making processes into Instruction-Subtask-Action levels. Within this architecture, three agents (i.e., Manager, Progress and Decision) are set up for instruction decomposition, progress tracking and step-by-step decision-making respectively. Additionally, a Reflection agent is adopted to enable timely bottom-up error feedback and adjustment. We also introduce a new benchmark PC-Eval with 25 real-world complex instructions. Empirical results on PC-Eval show that our PC-Agent achieves a 32% absolute improvement of task success rate over previous state-of-the-art methods. The code will be publicly available.

Summary

AI-Generated Summary

PDF203February 21, 2025