PC-Agent: Ein hierarchisches Multi-Agenten-Kollaborationsframework zur Automatisierung komplexer Aufgaben auf dem PC
PC-Agent: A Hierarchical Multi-Agent Collaboration Framework for Complex Task Automation on PC
February 20, 2025
Autoren: Haowei Liu, Xi Zhang, Haiyang Xu, Yuyang Wanyan, Junyang Wang, Ming Yan, Ji Zhang, Chunfeng Yuan, Changsheng Xu, Weiming Hu, Fei Huang
cs.AI
Zusammenfassung
Im Bereich der MLLM-basierten GUI-Agenten weist das PC-Szenario im Vergleich zu Smartphones nicht nur eine komplexere interaktive Umgebung auf, sondern beinhaltet auch anspruchsvollere intra- und inter-App-Workflows. Um diese Herausforderungen zu bewältigen, schlagen wir ein hierarchisches Agenten-Framework namens PC-Agent vor. Konkret entwickeln wir aus der Wahrnehmungsperspektive ein Active Perception Module (APM), um die unzureichenden Fähigkeiten aktueller MLLMs bei der Wahrnehmung von Screenshot-Inhalten zu überwinden. Aus der Entscheidungsfindungsperspektive schlagen wir eine hierarchische Multi-Agenten-Kollaborationsarchitektur vor, um komplexe Benutzeranweisungen und voneinander abhängige Teilaufgaben effektiver zu bewältigen. Diese Architektur zerlegt den Entscheidungsprozess in die Ebenen Anweisung-Teilaufgabe-Aktion. Innerhalb dieser Architektur werden drei Agenten (Manager, Progress und Decision) eingerichtet, die jeweils für die Anweisungszerlegung, die Fortschrittsverfolgung und die schrittweise Entscheidungsfindung zuständig sind. Zusätzlich wird ein Reflection-Agent eingesetzt, um eine zeitnahe Bottom-up-Fehlerrückmeldung und Anpassung zu ermöglichen. Wir führen außerdem einen neuen Benchmark PC-Eval mit 25 komplexen Anweisungen aus der realen Welt ein. Empirische Ergebnisse auf PC-Eval zeigen, dass unser PC-Agent eine absolute Verbesserung der Aufgaben-Erfolgsrate von 32 % gegenüber bisherigen State-of-the-Art-Methoden erzielt. Der Code wird öffentlich verfügbar sein.
English
In the field of MLLM-based GUI agents, compared to smartphones, the PC
scenario not only features a more complex interactive environment, but also
involves more intricate intra- and inter-app workflows. To address these
issues, we propose a hierarchical agent framework named PC-Agent. Specifically,
from the perception perspective, we devise an Active Perception Module (APM) to
overcome the inadequate abilities of current MLLMs in perceiving screenshot
content. From the decision-making perspective, to handle complex user
instructions and interdependent subtasks more effectively, we propose a
hierarchical multi-agent collaboration architecture that decomposes
decision-making processes into Instruction-Subtask-Action levels. Within this
architecture, three agents (i.e., Manager, Progress and Decision) are set up
for instruction decomposition, progress tracking and step-by-step
decision-making respectively. Additionally, a Reflection agent is adopted to
enable timely bottom-up error feedback and adjustment. We also introduce a new
benchmark PC-Eval with 25 real-world complex instructions. Empirical results on
PC-Eval show that our PC-Agent achieves a 32% absolute improvement of task
success rate over previous state-of-the-art methods. The code will be publicly
available.Summary
AI-Generated Summary