D-Artemis: モバイルGUIマルチエージェントのための審議型認知フレームワーク
D-Artemis: A Deliberative Cognitive Framework for Mobile GUI Multi-Agents
September 26, 2025
著者: Hongze Mi, Yibo Feng, Wenjie Lu, Yuqi Wang, Jinyuan Li, Song Cao, He Cui, Tengfei Tian, Xuelin Zhang, Haotian Luo, Di Sun, Naiqiang Tan, Gang Pan
cs.AI
要旨
グラフィカルユーザーインターフェース(GUI)エージェントは、ユーザーインタラクションをエミュレートすることで、幅広い人間のタスクを自動化することを目指している。急速な進展にもかかわらず、現在のアプローチはいくつかの重要な課題に阻まれている:エンドツーエンドトレーニングにおけるデータボトルネック、遅延したエラー検出の高コスト、および矛盾したガイダンスのリスクである。人間の認知ループである「思考」「整合」「反省」に着想を得て、本論文ではD-Artemisという新しい熟慮型フレームワークを提案する。D-Artemisは、アプリ固有の詳細なヒント検索メカニズムを活用して意思決定プロセスを支援する。また、実行前の積極的な整合段階を採用し、思考-行動一貫性(TAC)チェックモジュールと行動修正エージェント(ACA)が連携して実行失敗のリスクを軽減する。実行後の状態反省エージェント(SRA)が認知ループを完結させ、経験からの戦略的学習を可能にする。重要な点として、D-Artemisは、複雑な軌跡データセットのトレーニングを必要とせずに、GUIタスクにおける汎用マルチモーダル大規模言語モデル(MLLM)の能力を強化し、強力な一般化能力を示す。D-Artemisは、主要なベンチマークにおいて新たな最先端(SOTA)結果を確立し、AndroidWorldで75.8%、ScreenSpot-V2で96.8%の成功率を達成した。広範なアブレーション研究は、各コンポーネントがフレームワークに大きく貢献していることをさらに実証している。
English
Graphical User Interface (GUI) agents aim to automate a wide spectrum of
human tasks by emulating user interaction. Despite rapid advancements, current
approaches are hindered by several critical challenges: data bottleneck in
end-to-end training, high cost of delayed error detection, and risk of
contradictory guidance. Inspired by the human cognitive loop of Thinking,
Alignment, and Reflection, we present D-Artemis -- a novel deliberative
framework in this paper. D-Artemis leverages a fine-grained, app-specific tip
retrieval mechanism to inform its decision-making process. It also employs a
proactive Pre-execution Alignment stage, where Thought-Action Consistency (TAC)
Check module and Action Correction Agent (ACA) work in concert to mitigate the
risk of execution failures. A post-execution Status Reflection Agent (SRA)
completes the cognitive loop, enabling strategic learning from experience.
Crucially, D-Artemis enhances the capabilities of general-purpose Multimodal
large language models (MLLMs) for GUI tasks without the need for training on
complex trajectory datasets, demonstrating strong generalization. D-Artemis
establishes new state-of-the-art (SOTA) results across both major benchmarks,
achieving a 75.8% success rate on AndroidWorld and 96.8% on ScreenSpot-V2.
Extensive ablation studies further demonstrate the significant contribution of
each component to the framework.