PC-Agent: Een Hiërarchisch Multi-Agent Samenwerkingskader voor de Automatisering van Complexe Taken op PC

Samenvatting

Op het gebied van MLLM-gebaseerde GUI-agents kent het PC-scenario, in vergelijking met smartphones, niet alleen een complexere interactieve omgeving, maar ook ingewikkeldere intra- en inter-app workflows. Om deze problemen aan te pakken, stellen we een hiërarchisch agentframework voor, genaamd PC-Agent. Specifiek ontwikkelen we, vanuit het perspectief van waarneming, een Active Perception Module (APM) om de ontoereikende mogelijkheden van huidige MLLMs in het waarnemen van schermafbeeldingen te overwinnen. Vanuit het besluitvormingsperspectief stellen we, om complexe gebruikersinstructies en onderling afhankelijke subtaken effectiever te behandelen, een hiërarchische multi-agent samenwerkingsarchitectuur voor die besluitvormingsprocessen opsplitst in Instructie-Subtaak-Actie niveaus. Binnen deze architectuur worden drie agents ingesteld (namelijk Manager, Progress en Decision) voor respectievelijk instructiedecompositie, voortgangsmonitoring en stapsgewijze besluitvorming. Daarnaast wordt een Reflection-agent gebruikt om tijdige bottom-up foutfeedback en aanpassing mogelijk te maken. We introduceren ook een nieuwe benchmark, PC-Eval, met 25 complexe instructies uit de praktijk. Empirische resultaten op PC-Eval tonen aan dat onze PC-Agent een absolute verbetering van 32% in taaksuccespercentage behaalt ten opzichte van eerdere state-of-the-art methoden. De code zal openbaar beschikbaar worden gesteld.

English

In the field of MLLM-based GUI agents, compared to smartphones, the PC scenario not only features a more complex interactive environment, but also involves more intricate intra- and inter-app workflows. To address these issues, we propose a hierarchical agent framework named PC-Agent. Specifically, from the perception perspective, we devise an Active Perception Module (APM) to overcome the inadequate abilities of current MLLMs in perceiving screenshot content. From the decision-making perspective, to handle complex user instructions and interdependent subtasks more effectively, we propose a hierarchical multi-agent collaboration architecture that decomposes decision-making processes into Instruction-Subtask-Action levels. Within this architecture, three agents (i.e., Manager, Progress and Decision) are set up for instruction decomposition, progress tracking and step-by-step decision-making respectively. Additionally, a Reflection agent is adopted to enable timely bottom-up error feedback and adjustment. We also introduce a new benchmark PC-Eval with 25 real-world complex instructions. Empirical results on PC-Eval show that our PC-Agent achieves a 32% absolute improvement of task success rate over previous state-of-the-art methods. The code will be publicly available.

PC-Agent: Een Hiërarchisch Multi-Agent Samenwerkingskader voor de Automatisering van Complexe Taken op PC

PC-Agent: A Hierarchical Multi-Agent Collaboration Framework for Complex Task Automation on PC

Samenvatting

Support