PC-Agent: Un Framework Gerarchico di Collaborazione Multi-Agente per l'Automazione di Compiti Complessi su PC

Abstract

Nel campo degli agenti GUI basati su MLLM, rispetto agli smartphone, lo scenario PC non solo presenta un ambiente interattivo più complesso, ma coinvolge anche flussi di lavoro intra- e inter-app più intricati. Per affrontare queste problematiche, proponiamo un framework gerarchico di agenti denominato PC-Agent. Nello specifico, dal punto di vista della percezione, abbiamo ideato un Modulo di Percezione Attiva (APM) per superare le capacità insufficienti degli attuali MLLM nel percepire il contenuto degli screenshot. Dal punto di vista del processo decisionale, per gestire in modo più efficace istruzioni utente complesse e sottotask interdipendenti, proponiamo un'architettura di collaborazione multi-agente gerarchica che scompone i processi decisionali in livelli Istruzione-Sottotask-Azione. All'interno di questa architettura, sono stati configurati tre agenti (ovvero Manager, Progress e Decision) rispettivamente per la scomposizione delle istruzioni, il monitoraggio dei progressi e il processo decisionale passo-passo. Inoltre, è stato adottato un agente di Riflessione per consentire un feedback e un aggiustamento tempestivi degli errori dal basso verso l'alto. Introduciamo anche un nuovo benchmark, PC-Eval, con 25 istruzioni complesse del mondo reale. I risultati empirici su PC-Eval dimostrano che il nostro PC-Agent raggiunge un miglioramento assoluto del 32% nel tasso di successo delle task rispetto ai precedenti metodi all'avanguardia. Il codice sarà reso pubblicamente disponibile.

English

In the field of MLLM-based GUI agents, compared to smartphones, the PC scenario not only features a more complex interactive environment, but also involves more intricate intra- and inter-app workflows. To address these issues, we propose a hierarchical agent framework named PC-Agent. Specifically, from the perception perspective, we devise an Active Perception Module (APM) to overcome the inadequate abilities of current MLLMs in perceiving screenshot content. From the decision-making perspective, to handle complex user instructions and interdependent subtasks more effectively, we propose a hierarchical multi-agent collaboration architecture that decomposes decision-making processes into Instruction-Subtask-Action levels. Within this architecture, three agents (i.e., Manager, Progress and Decision) are set up for instruction decomposition, progress tracking and step-by-step decision-making respectively. Additionally, a Reflection agent is adopted to enable timely bottom-up error feedback and adjustment. We also introduce a new benchmark PC-Eval with 25 real-world complex instructions. Empirical results on PC-Eval show that our PC-Agent achieves a 32% absolute improvement of task success rate over previous state-of-the-art methods. The code will be publicly available.

PC-Agent: Un Framework Gerarchico di Collaborazione Multi-Agente per l'Automazione di Compiti Complessi su PC

PC-Agent: A Hierarchical Multi-Agent Collaboration Framework for Complex Task Automation on PC

Abstract

Support