ChatPaper.aiChatPaper

D-Artemis: Ein deliberativer kognitiver Rahmen für mobile GUI-Multiagenten

D-Artemis: A Deliberative Cognitive Framework for Mobile GUI Multi-Agents

September 26, 2025
papers.authors: Hongze Mi, Yibo Feng, Wenjie Lu, Yuqi Wang, Jinyuan Li, Song Cao, He Cui, Tengfei Tian, Xuelin Zhang, Haotian Luo, Di Sun, Naiqiang Tan, Gang Pan
cs.AI

papers.abstract

Graphical User Interface (GUI)-Agenten zielen darauf ab, ein breites Spektrum menschlicher Aufgaben durch die Emulation von Benutzerinteraktionen zu automatisieren. Trotz rasanter Fortschritte werden aktuelle Ansätze durch mehrere kritische Herausforderungen behindert: den Datenengpass beim End-to-End-Training, die hohen Kosten verzögerter Fehlererkennung und das Risiko widersprüchlicher Anweisungen. Inspiriert durch den menschlichen kognitiven Kreislauf aus Denken, Ausrichtung und Reflexion präsentieren wir in diesem Artikel D-Artemis – ein neuartiges deliberatives Framework. D-Artemis nutzt einen feingranularen, app-spezifischen Tipp-Retrieval-Mechanismus, um seinen Entscheidungsprozess zu informieren. Es setzt zudem eine proaktive Pre-execution Alignment-Phase ein, in der das Thought-Action Consistency (TAC)-Check-Modul und der Action Correction Agent (ACA) zusammenwirken, um das Risiko von Ausführungsfehlern zu minimieren. Ein post-execution Status Reflection Agent (SRA) vervollständigt den kognitiven Kreislauf und ermöglicht strategisches Lernen aus Erfahrungen. Entscheidend ist, dass D-Artemis die Fähigkeiten allgemeiner Multimodaler großer Sprachmodelle (MLLMs) für GUI-Aufgaben erweitert, ohne dass ein Training auf komplexen Trajektorien-Datensätzen erforderlich ist, und dabei eine starke Generalisierung demonstriert. D-Artemis setzt neue State-of-the-Art (SOTA)-Ergebnisse in beiden wichtigen Benchmarks, mit einer Erfolgsrate von 75,8 % auf AndroidWorld und 96,8 % auf ScreenSpot-V2. Umfangreiche Ablationsstudien zeigen weiterhin den signifikanten Beitrag jeder Komponente zum Framework.
English
Graphical User Interface (GUI) agents aim to automate a wide spectrum of human tasks by emulating user interaction. Despite rapid advancements, current approaches are hindered by several critical challenges: data bottleneck in end-to-end training, high cost of delayed error detection, and risk of contradictory guidance. Inspired by the human cognitive loop of Thinking, Alignment, and Reflection, we present D-Artemis -- a novel deliberative framework in this paper. D-Artemis leverages a fine-grained, app-specific tip retrieval mechanism to inform its decision-making process. It also employs a proactive Pre-execution Alignment stage, where Thought-Action Consistency (TAC) Check module and Action Correction Agent (ACA) work in concert to mitigate the risk of execution failures. A post-execution Status Reflection Agent (SRA) completes the cognitive loop, enabling strategic learning from experience. Crucially, D-Artemis enhances the capabilities of general-purpose Multimodal large language models (MLLMs) for GUI tasks without the need for training on complex trajectory datasets, demonstrating strong generalization. D-Artemis establishes new state-of-the-art (SOTA) results across both major benchmarks, achieving a 75.8% success rate on AndroidWorld and 96.8% on ScreenSpot-V2. Extensive ablation studies further demonstrate the significant contribution of each component to the framework.
PDF82September 29, 2025