PC-Agent: Um Framework Hierárquico de Colaboração Multi-Agente para Automação de Tarefas Complexas em PC

Resumo

No campo de agentes de interface gráfica baseados em MLLM, em comparação com smartphones, o cenário de PC não apenas apresenta um ambiente interativo mais complexo, mas também envolve fluxos de trabalho intra e inter aplicativos mais intrincados. Para abordar esses problemas, propomos uma estrutura de agente hierárquica chamada PC-Agent. Especificamente, do ponto de vista da percepção, desenvolvemos um Módulo de Percepção Ativa (APM) para superar as capacidades inadequadas dos MLLMs atuais em perceber o conteúdo de capturas de tela. Do ponto de vista da tomada de decisão, para lidar de forma mais eficaz com instruções complexas do usuário e subtarefas interdependentes, propomos uma arquitetura de colaboração multiagente hierárquica que decompõe os processos de tomada de decisão em níveis de Instrução-Subtarefa-Ação. Dentro dessa arquitetura, três agentes (ou seja, Gerente, Progresso e Decisão) são configurados para decomposição de instruções, acompanhamento de progresso e tomada de decisão passo a passo, respectivamente. Além disso, um agente de Reflexão é adotado para permitir feedback e ajuste de erros de baixo para cima em tempo hábil. Também introduzimos um novo benchmark chamado PC-Eval com 25 instruções complexas do mundo real. Os resultados empíricos no PC-Eval mostram que nosso PC-Agent alcança uma melhoria absoluta de 32% na taxa de sucesso de tarefas em relação aos métodos state-of-the-art anteriores. O código estará publicamente disponível.

English

In the field of MLLM-based GUI agents, compared to smartphones, the PC scenario not only features a more complex interactive environment, but also involves more intricate intra- and inter-app workflows. To address these issues, we propose a hierarchical agent framework named PC-Agent. Specifically, from the perception perspective, we devise an Active Perception Module (APM) to overcome the inadequate abilities of current MLLMs in perceiving screenshot content. From the decision-making perspective, to handle complex user instructions and interdependent subtasks more effectively, we propose a hierarchical multi-agent collaboration architecture that decomposes decision-making processes into Instruction-Subtask-Action levels. Within this architecture, three agents (i.e., Manager, Progress and Decision) are set up for instruction decomposition, progress tracking and step-by-step decision-making respectively. Additionally, a Reflection agent is adopted to enable timely bottom-up error feedback and adjustment. We also introduce a new benchmark PC-Eval with 25 real-world complex instructions. Empirical results on PC-Eval show that our PC-Agent achieves a 32% absolute improvement of task success rate over previous state-of-the-art methods. The code will be publicly available.

PC-Agent: Um Framework Hierárquico de Colaboração Multi-Agente para Automação de Tarefas Complexas em PC

PC-Agent: A Hierarchical Multi-Agent Collaboration Framework for Complex Task Automation on PC

Resumo

Support