PC-Agent: Un Marco de Colaboración Jerárquico Multi-Agente para la Automatización de Tareas Complejas en PC
PC-Agent: A Hierarchical Multi-Agent Collaboration Framework for Complex Task Automation on PC
February 20, 2025
Autores: Haowei Liu, Xi Zhang, Haiyang Xu, Yuyang Wanyan, Junyang Wang, Ming Yan, Ji Zhang, Chunfeng Yuan, Changsheng Xu, Weiming Hu, Fei Huang
cs.AI
Resumen
En el campo de los agentes GUI basados en MLLM, en comparación con los teléfonos inteligentes, el escenario de PC no solo presenta un entorno interactivo más complejo, sino que también involucra flujos de trabajo intra e interaplicaciones más intrincados. Para abordar estos problemas, proponemos un marco de agente jerárquico denominado PC-Agent. Específicamente, desde la perspectiva de la percepción, diseñamos un Módulo de Percepción Activa (APM) para superar las capacidades insuficientes de los MLLM actuales en la percepción del contenido de capturas de pantalla. Desde la perspectiva de la toma de decisiones, para manejar instrucciones de usuario complejas y subtareas interdependientes de manera más efectiva, proponemos una arquitectura de colaboración multiagente jerárquica que descompone los procesos de toma de decisiones en niveles de Instrucción-Subtarea-Acción. Dentro de esta arquitectura, se configuran tres agentes (es decir, Manager, Progress y Decision) para la descomposición de instrucciones, el seguimiento del progreso y la toma de decisiones paso a paso, respectivamente. Además, se adopta un agente de Reflexión para permitir una retroalimentación y ajuste de errores ascendente oportuna. También presentamos un nuevo punto de referencia, PC-Eval, con 25 instrucciones complejas del mundo real. Los resultados empíricos en PC-Eval muestran que nuestro PC-Agent logra una mejora absoluta del 32% en la tasa de éxito de tareas sobre los métodos anteriores más avanzados. El código estará disponible públicamente.
English
In the field of MLLM-based GUI agents, compared to smartphones, the PC
scenario not only features a more complex interactive environment, but also
involves more intricate intra- and inter-app workflows. To address these
issues, we propose a hierarchical agent framework named PC-Agent. Specifically,
from the perception perspective, we devise an Active Perception Module (APM) to
overcome the inadequate abilities of current MLLMs in perceiving screenshot
content. From the decision-making perspective, to handle complex user
instructions and interdependent subtasks more effectively, we propose a
hierarchical multi-agent collaboration architecture that decomposes
decision-making processes into Instruction-Subtask-Action levels. Within this
architecture, three agents (i.e., Manager, Progress and Decision) are set up
for instruction decomposition, progress tracking and step-by-step
decision-making respectively. Additionally, a Reflection agent is adopted to
enable timely bottom-up error feedback and adjustment. We also introduce a new
benchmark PC-Eval with 25 real-world complex instructions. Empirical results on
PC-Eval show that our PC-Agent achieves a 32% absolute improvement of task
success rate over previous state-of-the-art methods. The code will be publicly
available.Summary
AI-Generated Summary