PC-Agent: Een Hiërarchisch Multi-Agent Samenwerkingskader voor de Automatisering van Complexe Taken op PC
PC-Agent: A Hierarchical Multi-Agent Collaboration Framework for Complex Task Automation on PC
February 20, 2025
Auteurs: Haowei Liu, Xi Zhang, Haiyang Xu, Yuyang Wanyan, Junyang Wang, Ming Yan, Ji Zhang, Chunfeng Yuan, Changsheng Xu, Weiming Hu, Fei Huang
cs.AI
Samenvatting
Op het gebied van MLLM-gebaseerde GUI-agents kent het PC-scenario, in vergelijking met smartphones, niet alleen een complexere interactieve omgeving, maar ook ingewikkeldere intra- en inter-app workflows. Om deze problemen aan te pakken, stellen we een hiërarchisch agentframework voor, genaamd PC-Agent. Specifiek ontwikkelen we, vanuit het perspectief van waarneming, een Active Perception Module (APM) om de ontoereikende mogelijkheden van huidige MLLMs in het waarnemen van schermafbeeldingen te overwinnen. Vanuit het besluitvormingsperspectief stellen we, om complexe gebruikersinstructies en onderling afhankelijke subtaken effectiever te behandelen, een hiërarchische multi-agent samenwerkingsarchitectuur voor die besluitvormingsprocessen opsplitst in Instructie-Subtaak-Actie niveaus. Binnen deze architectuur worden drie agents ingesteld (namelijk Manager, Progress en Decision) voor respectievelijk instructiedecompositie, voortgangsmonitoring en stapsgewijze besluitvorming. Daarnaast wordt een Reflection-agent gebruikt om tijdige bottom-up foutfeedback en aanpassing mogelijk te maken. We introduceren ook een nieuwe benchmark, PC-Eval, met 25 complexe instructies uit de praktijk. Empirische resultaten op PC-Eval tonen aan dat onze PC-Agent een absolute verbetering van 32% in taaksuccespercentage behaalt ten opzichte van eerdere state-of-the-art methoden. De code zal openbaar beschikbaar worden gesteld.
English
In the field of MLLM-based GUI agents, compared to smartphones, the PC
scenario not only features a more complex interactive environment, but also
involves more intricate intra- and inter-app workflows. To address these
issues, we propose a hierarchical agent framework named PC-Agent. Specifically,
from the perception perspective, we devise an Active Perception Module (APM) to
overcome the inadequate abilities of current MLLMs in perceiving screenshot
content. From the decision-making perspective, to handle complex user
instructions and interdependent subtasks more effectively, we propose a
hierarchical multi-agent collaboration architecture that decomposes
decision-making processes into Instruction-Subtask-Action levels. Within this
architecture, three agents (i.e., Manager, Progress and Decision) are set up
for instruction decomposition, progress tracking and step-by-step
decision-making respectively. Additionally, a Reflection agent is adopted to
enable timely bottom-up error feedback and adjustment. We also introduce a new
benchmark PC-Eval with 25 real-world complex instructions. Empirical results on
PC-Eval show that our PC-Agent achieves a 32% absolute improvement of task
success rate over previous state-of-the-art methods. The code will be publicly
available.Summary
AI-Generated Summary