PC-Agent : Un cadre de collaboration multi-agent hiérarchique pour l'automatisation de tâches complexes sur PC
PC-Agent: A Hierarchical Multi-Agent Collaboration Framework for Complex Task Automation on PC
February 20, 2025
Auteurs: Haowei Liu, Xi Zhang, Haiyang Xu, Yuyang Wanyan, Junyang Wang, Ming Yan, Ji Zhang, Chunfeng Yuan, Changsheng Xu, Weiming Hu, Fei Huang
cs.AI
Résumé
Dans le domaine des agents d'interface graphique basés sur les MLLM, par rapport aux smartphones, le scénario PC présente non seulement un environnement interactif plus complexe, mais implique également des flux de travail intra et inter-applications plus élaborés. Pour résoudre ces problèmes, nous proposons un cadre d'agent hiérarchique nommé PC-Agent. Plus précisément, du point de vue de la perception, nous concevons un module de perception active (APM) pour surmonter les capacités insuffisantes des MLLM actuels à percevoir le contenu des captures d'écran. Du point de vue de la prise de décision, pour gérer plus efficacement les instructions utilisateur complexes et les sous-tâches interdépendantes, nous proposons une architecture de collaboration multi-agent hiérarchique qui décompose les processus de décision en niveaux Instruction-Sous-tâche-Action. Au sein de cette architecture, trois agents (à savoir, Manager, Progress et Decision) sont mis en place pour respectivement la décomposition des instructions, le suivi de la progression et la prise de décision étape par étape. De plus, un agent de réflexion est adopté pour permettre un retour d'erreur et un ajustement ascendants en temps opportun. Nous introduisons également un nouveau benchmark PC-Eval avec 25 instructions complexes du monde réel. Les résultats empiriques sur PC-Eval montrent que notre PC-Agent obtient une amélioration absolue de 32 % du taux de réussite des tâches par rapport aux méthodes précédentes de pointe. Le code sera rendu public.
English
In the field of MLLM-based GUI agents, compared to smartphones, the PC
scenario not only features a more complex interactive environment, but also
involves more intricate intra- and inter-app workflows. To address these
issues, we propose a hierarchical agent framework named PC-Agent. Specifically,
from the perception perspective, we devise an Active Perception Module (APM) to
overcome the inadequate abilities of current MLLMs in perceiving screenshot
content. From the decision-making perspective, to handle complex user
instructions and interdependent subtasks more effectively, we propose a
hierarchical multi-agent collaboration architecture that decomposes
decision-making processes into Instruction-Subtask-Action levels. Within this
architecture, three agents (i.e., Manager, Progress and Decision) are set up
for instruction decomposition, progress tracking and step-by-step
decision-making respectively. Additionally, a Reflection agent is adopted to
enable timely bottom-up error feedback and adjustment. We also introduce a new
benchmark PC-Eval with 25 real-world complex instructions. Empirical results on
PC-Eval show that our PC-Agent achieves a 32% absolute improvement of task
success rate over previous state-of-the-art methods. The code will be publicly
available.Summary
AI-Generated Summary