PC-Agent: PC上での複雑なタスク自動化のための階層型マルチエージェント協調フレームワーク
PC-Agent: A Hierarchical Multi-Agent Collaboration Framework for Complex Task Automation on PC
February 20, 2025
著者: Haowei Liu, Xi Zhang, Haiyang Xu, Yuyang Wanyan, Junyang Wang, Ming Yan, Ji Zhang, Chunfeng Yuan, Changsheng Xu, Weiming Hu, Fei Huang
cs.AI
要旨
MLLMベースのGUIエージェントの分野において、スマートフォンと比較して、PCシナリオはより複雑なインタラクティブ環境を特徴とするだけでなく、より複雑なアプリ内およびアプリ間のワークフローを伴います。これらの課題に対処するため、我々はPC-Agentという階層型エージェントフレームワークを提案します。具体的には、知覚の観点から、現在のMLLMがスクリーンショットの内容を認識する能力が不十分であるという問題を克服するために、Active Perception Module (APM)を考案しました。意思決定の観点からは、複雑なユーザー指示と相互依存するサブタスクをより効果的に処理するために、意思決定プロセスをInstruction-Subtask-Actionのレベルに分解する階層型マルチエージェント協調アーキテクチャを提案します。このアーキテクチャ内では、指示の分解、進捗の追跡、段階的な意思決定をそれぞれ担当する3つのエージェント(Manager、Progress、Decision)を設定しました。さらに、Reflectionエージェントを採用し、タイムリーなボトムアップのエラーフィードバックと調整を可能にしました。また、25の実世界の複雑な指示を含む新しいベンチマークPC-Evalを導入しました。PC-Evalでの実験結果は、我々のPC-Agentが従来の最先端手法と比較してタスク成功率で32%の絶対的な改善を達成したことを示しています。コードは公開予定です。
English
In the field of MLLM-based GUI agents, compared to smartphones, the PC
scenario not only features a more complex interactive environment, but also
involves more intricate intra- and inter-app workflows. To address these
issues, we propose a hierarchical agent framework named PC-Agent. Specifically,
from the perception perspective, we devise an Active Perception Module (APM) to
overcome the inadequate abilities of current MLLMs in perceiving screenshot
content. From the decision-making perspective, to handle complex user
instructions and interdependent subtasks more effectively, we propose a
hierarchical multi-agent collaboration architecture that decomposes
decision-making processes into Instruction-Subtask-Action levels. Within this
architecture, three agents (i.e., Manager, Progress and Decision) are set up
for instruction decomposition, progress tracking and step-by-step
decision-making respectively. Additionally, a Reflection agent is adopted to
enable timely bottom-up error feedback and adjustment. We also introduce a new
benchmark PC-Eval with 25 real-world complex instructions. Empirical results on
PC-Eval show that our PC-Agent achieves a 32% absolute improvement of task
success rate over previous state-of-the-art methods. The code will be publicly
available.Summary
AI-Generated Summary