PC-Agent: Um Framework Hierárquico de Colaboração Multi-Agente para Automação de Tarefas Complexas em PC
PC-Agent: A Hierarchical Multi-Agent Collaboration Framework for Complex Task Automation on PC
February 20, 2025
Autores: Haowei Liu, Xi Zhang, Haiyang Xu, Yuyang Wanyan, Junyang Wang, Ming Yan, Ji Zhang, Chunfeng Yuan, Changsheng Xu, Weiming Hu, Fei Huang
cs.AI
Resumo
No campo de agentes de interface gráfica baseados em MLLM, em comparação com smartphones, o cenário de PC não apenas apresenta um ambiente interativo mais complexo, mas também envolve fluxos de trabalho intra e inter aplicativos mais intrincados. Para abordar esses problemas, propomos uma estrutura de agente hierárquica chamada PC-Agent. Especificamente, do ponto de vista da percepção, desenvolvemos um Módulo de Percepção Ativa (APM) para superar as capacidades inadequadas dos MLLMs atuais em perceber o conteúdo de capturas de tela. Do ponto de vista da tomada de decisão, para lidar de forma mais eficaz com instruções complexas do usuário e subtarefas interdependentes, propomos uma arquitetura de colaboração multiagente hierárquica que decompõe os processos de tomada de decisão em níveis de Instrução-Subtarefa-Ação. Dentro dessa arquitetura, três agentes (ou seja, Gerente, Progresso e Decisão) são configurados para decomposição de instruções, acompanhamento de progresso e tomada de decisão passo a passo, respectivamente. Além disso, um agente de Reflexão é adotado para permitir feedback e ajuste de erros de baixo para cima em tempo hábil. Também introduzimos um novo benchmark chamado PC-Eval com 25 instruções complexas do mundo real. Os resultados empíricos no PC-Eval mostram que nosso PC-Agent alcança uma melhoria absoluta de 32% na taxa de sucesso de tarefas em relação aos métodos state-of-the-art anteriores. O código estará publicamente disponível.
English
In the field of MLLM-based GUI agents, compared to smartphones, the PC
scenario not only features a more complex interactive environment, but also
involves more intricate intra- and inter-app workflows. To address these
issues, we propose a hierarchical agent framework named PC-Agent. Specifically,
from the perception perspective, we devise an Active Perception Module (APM) to
overcome the inadequate abilities of current MLLMs in perceiving screenshot
content. From the decision-making perspective, to handle complex user
instructions and interdependent subtasks more effectively, we propose a
hierarchical multi-agent collaboration architecture that decomposes
decision-making processes into Instruction-Subtask-Action levels. Within this
architecture, three agents (i.e., Manager, Progress and Decision) are set up
for instruction decomposition, progress tracking and step-by-step
decision-making respectively. Additionally, a Reflection agent is adopted to
enable timely bottom-up error feedback and adjustment. We also introduce a new
benchmark PC-Eval with 25 real-world complex instructions. Empirical results on
PC-Eval show that our PC-Agent achieves a 32% absolute improvement of task
success rate over previous state-of-the-art methods. The code will be publicly
available.Summary
AI-Generated Summary