PC-Agent: Un Framework Gerarchico di Collaborazione Multi-Agente per l'Automazione di Compiti Complessi su PC
PC-Agent: A Hierarchical Multi-Agent Collaboration Framework for Complex Task Automation on PC
February 20, 2025
Autori: Haowei Liu, Xi Zhang, Haiyang Xu, Yuyang Wanyan, Junyang Wang, Ming Yan, Ji Zhang, Chunfeng Yuan, Changsheng Xu, Weiming Hu, Fei Huang
cs.AI
Abstract
Nel campo degli agenti GUI basati su MLLM, rispetto agli smartphone, lo scenario PC non solo presenta un ambiente interattivo più complesso, ma coinvolge anche flussi di lavoro intra- e inter-app più intricati. Per affrontare queste problematiche, proponiamo un framework gerarchico di agenti denominato PC-Agent. Nello specifico, dal punto di vista della percezione, abbiamo ideato un Modulo di Percezione Attiva (APM) per superare le capacità insufficienti degli attuali MLLM nel percepire il contenuto degli screenshot. Dal punto di vista del processo decisionale, per gestire in modo più efficace istruzioni utente complesse e sottotask interdipendenti, proponiamo un'architettura di collaborazione multi-agente gerarchica che scompone i processi decisionali in livelli Istruzione-Sottotask-Azione. All'interno di questa architettura, sono stati configurati tre agenti (ovvero Manager, Progress e Decision) rispettivamente per la scomposizione delle istruzioni, il monitoraggio dei progressi e il processo decisionale passo-passo. Inoltre, è stato adottato un agente di Riflessione per consentire un feedback e un aggiustamento tempestivi degli errori dal basso verso l'alto. Introduciamo anche un nuovo benchmark, PC-Eval, con 25 istruzioni complesse del mondo reale. I risultati empirici su PC-Eval dimostrano che il nostro PC-Agent raggiunge un miglioramento assoluto del 32% nel tasso di successo delle task rispetto ai precedenti metodi all'avanguardia. Il codice sarà reso pubblicamente disponibile.
English
In the field of MLLM-based GUI agents, compared to smartphones, the PC
scenario not only features a more complex interactive environment, but also
involves more intricate intra- and inter-app workflows. To address these
issues, we propose a hierarchical agent framework named PC-Agent. Specifically,
from the perception perspective, we devise an Active Perception Module (APM) to
overcome the inadequate abilities of current MLLMs in perceiving screenshot
content. From the decision-making perspective, to handle complex user
instructions and interdependent subtasks more effectively, we propose a
hierarchical multi-agent collaboration architecture that decomposes
decision-making processes into Instruction-Subtask-Action levels. Within this
architecture, three agents (i.e., Manager, Progress and Decision) are set up
for instruction decomposition, progress tracking and step-by-step
decision-making respectively. Additionally, a Reflection agent is adopted to
enable timely bottom-up error feedback and adjustment. We also introduce a new
benchmark PC-Eval with 25 real-world complex instructions. Empirical results on
PC-Eval show that our PC-Agent achieves a 32% absolute improvement of task
success rate over previous state-of-the-art methods. The code will be publicly
available.