PC-Agent: Un Marco de Colaboración Jerárquico Multi-Agente para la Automatización de Tareas Complejas en PC

Resumen

En el campo de los agentes GUI basados en MLLM, en comparación con los teléfonos inteligentes, el escenario de PC no solo presenta un entorno interactivo más complejo, sino que también involucra flujos de trabajo intra e interaplicaciones más intrincados. Para abordar estos problemas, proponemos un marco de agente jerárquico denominado PC-Agent. Específicamente, desde la perspectiva de la percepción, diseñamos un Módulo de Percepción Activa (APM) para superar las capacidades insuficientes de los MLLM actuales en la percepción del contenido de capturas de pantalla. Desde la perspectiva de la toma de decisiones, para manejar instrucciones de usuario complejas y subtareas interdependientes de manera más efectiva, proponemos una arquitectura de colaboración multiagente jerárquica que descompone los procesos de toma de decisiones en niveles de Instrucción-Subtarea-Acción. Dentro de esta arquitectura, se configuran tres agentes (es decir, Manager, Progress y Decision) para la descomposición de instrucciones, el seguimiento del progreso y la toma de decisiones paso a paso, respectivamente. Además, se adopta un agente de Reflexión para permitir una retroalimentación y ajuste de errores ascendente oportuna. También presentamos un nuevo punto de referencia, PC-Eval, con 25 instrucciones complejas del mundo real. Los resultados empíricos en PC-Eval muestran que nuestro PC-Agent logra una mejora absoluta del 32% en la tasa de éxito de tareas sobre los métodos anteriores más avanzados. El código estará disponible públicamente.

English

In the field of MLLM-based GUI agents, compared to smartphones, the PC scenario not only features a more complex interactive environment, but also involves more intricate intra- and inter-app workflows. To address these issues, we propose a hierarchical agent framework named PC-Agent. Specifically, from the perception perspective, we devise an Active Perception Module (APM) to overcome the inadequate abilities of current MLLMs in perceiving screenshot content. From the decision-making perspective, to handle complex user instructions and interdependent subtasks more effectively, we propose a hierarchical multi-agent collaboration architecture that decomposes decision-making processes into Instruction-Subtask-Action levels. Within this architecture, three agents (i.e., Manager, Progress and Decision) are set up for instruction decomposition, progress tracking and step-by-step decision-making respectively. Additionally, a Reflection agent is adopted to enable timely bottom-up error feedback and adjustment. We also introduce a new benchmark PC-Eval with 25 real-world complex instructions. Empirical results on PC-Eval show that our PC-Agent achieves a 32% absolute improvement of task success rate over previous state-of-the-art methods. The code will be publicly available.

PC-Agent: Un Marco de Colaboración Jerárquico Multi-Agente para la Automatización de Tareas Complejas en PC

PC-Agent: A Hierarchical Multi-Agent Collaboration Framework for Complex Task Automation on PC

Resumen

Support