ChatPaper.aiChatPaper

PC-Agent: Иерархическая структура многозадачного взаимодействия агентов для автоматизации сложных задач на ПК

PC-Agent: A Hierarchical Multi-Agent Collaboration Framework for Complex Task Automation on PC

February 20, 2025
Авторы: Haowei Liu, Xi Zhang, Haiyang Xu, Yuyang Wanyan, Junyang Wang, Ming Yan, Ji Zhang, Chunfeng Yuan, Changsheng Xu, Weiming Hu, Fei Huang
cs.AI

Аннотация

В области GUI-агентов на основе MLLM, по сравнению со смартфонами, сценарий использования ПК характеризуется не только более сложной интерактивной средой, но и более запутанными внутри- и межприложенными рабочими процессами. Для решения этих проблем мы предлагаем иерархическую структуру агента под названием PC-Agent. В частности, с точки зрения восприятия, мы разработали модуль активного восприятия (Active Perception Module, APM), чтобы преодолеть недостаточные способности современных MLLM в восприятии содержимого скриншотов. С точки зрения принятия решений, для более эффективной обработки сложных пользовательских инструкций и взаимозависимых подзадач, мы предлагаем иерархическую архитектуру многозадачного взаимодействия, которая разбивает процессы принятия решений на уровни Инструкция-Подзадача-Действие. В рамках этой архитектуры созданы три агента (Менеджер, Прогресс и Решение) для декомпозиции инструкций, отслеживания прогресса и пошагового принятия решений соответственно. Кроме того, используется агент Рефлексии для обеспечения своевременной обратной связи и корректировки ошибок снизу вверх. Мы также представляем новый бенчмарк PC-Eval с 25 реальными сложными инструкциями. Эмпирические результаты на PC-Eval показывают, что наш PC-Agent достигает абсолютного улучшения успешности выполнения задач на 32% по сравнению с предыдущими передовыми методами. Код будет общедоступным.
English
In the field of MLLM-based GUI agents, compared to smartphones, the PC scenario not only features a more complex interactive environment, but also involves more intricate intra- and inter-app workflows. To address these issues, we propose a hierarchical agent framework named PC-Agent. Specifically, from the perception perspective, we devise an Active Perception Module (APM) to overcome the inadequate abilities of current MLLMs in perceiving screenshot content. From the decision-making perspective, to handle complex user instructions and interdependent subtasks more effectively, we propose a hierarchical multi-agent collaboration architecture that decomposes decision-making processes into Instruction-Subtask-Action levels. Within this architecture, three agents (i.e., Manager, Progress and Decision) are set up for instruction decomposition, progress tracking and step-by-step decision-making respectively. Additionally, a Reflection agent is adopted to enable timely bottom-up error feedback and adjustment. We also introduce a new benchmark PC-Eval with 25 real-world complex instructions. Empirical results on PC-Eval show that our PC-Agent achieves a 32% absolute improvement of task success rate over previous state-of-the-art methods. The code will be publicly available.

Summary

AI-Generated Summary

PDF203February 21, 2025