PC-Agent : Un cadre de collaboration multi-agent hiérarchique pour l'automatisation de tâches complexes sur PC

papers.abstract

Dans le domaine des agents d'interface graphique basés sur les MLLM, par rapport aux smartphones, le scénario PC présente non seulement un environnement interactif plus complexe, mais implique également des flux de travail intra et inter-applications plus élaborés. Pour résoudre ces problèmes, nous proposons un cadre d'agent hiérarchique nommé PC-Agent. Plus précisément, du point de vue de la perception, nous concevons un module de perception active (APM) pour surmonter les capacités insuffisantes des MLLM actuels à percevoir le contenu des captures d'écran. Du point de vue de la prise de décision, pour gérer plus efficacement les instructions utilisateur complexes et les sous-tâches interdépendantes, nous proposons une architecture de collaboration multi-agent hiérarchique qui décompose les processus de décision en niveaux Instruction-Sous-tâche-Action. Au sein de cette architecture, trois agents (à savoir, Manager, Progress et Decision) sont mis en place pour respectivement la décomposition des instructions, le suivi de la progression et la prise de décision étape par étape. De plus, un agent de réflexion est adopté pour permettre un retour d'erreur et un ajustement ascendants en temps opportun. Nous introduisons également un nouveau benchmark PC-Eval avec 25 instructions complexes du monde réel. Les résultats empiriques sur PC-Eval montrent que notre PC-Agent obtient une amélioration absolue de 32 % du taux de réussite des tâches par rapport aux méthodes précédentes de pointe. Le code sera rendu public.

English

In the field of MLLM-based GUI agents, compared to smartphones, the PC scenario not only features a more complex interactive environment, but also involves more intricate intra- and inter-app workflows. To address these issues, we propose a hierarchical agent framework named PC-Agent. Specifically, from the perception perspective, we devise an Active Perception Module (APM) to overcome the inadequate abilities of current MLLMs in perceiving screenshot content. From the decision-making perspective, to handle complex user instructions and interdependent subtasks more effectively, we propose a hierarchical multi-agent collaboration architecture that decomposes decision-making processes into Instruction-Subtask-Action levels. Within this architecture, three agents (i.e., Manager, Progress and Decision) are set up for instruction decomposition, progress tracking and step-by-step decision-making respectively. Additionally, a Reflection agent is adopted to enable timely bottom-up error feedback and adjustment. We also introduce a new benchmark PC-Eval with 25 real-world complex instructions. Empirical results on PC-Eval show that our PC-Agent achieves a 32% absolute improvement of task success rate over previous state-of-the-art methods. The code will be publicly available.

PC-Agent : Un cadre de collaboration multi-agent hiérarchique pour l'automatisation de tâches complexes sur PC

PC-Agent: A Hierarchical Multi-Agent Collaboration Framework for Complex Task Automation on PC

papers.abstract

Support