ChatPaper.aiChatPaper

D-Artemis : Un cadre cognitif délibératif pour les interfaces graphiques mobiles multi-agents

D-Artemis: A Deliberative Cognitive Framework for Mobile GUI Multi-Agents

September 26, 2025
papers.authors: Hongze Mi, Yibo Feng, Wenjie Lu, Yuqi Wang, Jinyuan Li, Song Cao, He Cui, Tengfei Tian, Xuelin Zhang, Haotian Luo, Di Sun, Naiqiang Tan, Gang Pan
cs.AI

papers.abstract

Les agents d'interface graphique (GUI) visent à automatiser un large éventail de tâches humaines en imitant l'interaction utilisateur. Malgré des avancées rapides, les approches actuelles sont freinées par plusieurs défis critiques : le goulot d'étranglement des données dans l'apprentissage de bout en bout, le coût élevé de la détection tardive des erreurs et le risque de directives contradictoires. Inspiré par la boucle cognitive humaine de Pensée, Alignement et Réflexion, nous présentons D-Artemis — un nouveau cadre délibératif dans cet article. D-Artemis exploite un mécanisme de récupération de conseils spécifiques à l'application, à granularité fine, pour éclairer son processus de prise de décision. Il intègre également une étape proactive d'Alignement Pré-exécution, où le module de Vérification de la Cohérence Pensée-Action (TAC) et l'Agent de Correction d'Action (ACA) travaillent de concert pour atténuer le risque d'échecs d'exécution. Un Agent de Réflexion sur l'État (SRA) post-exécution complète la boucle cognitive, permettant un apprentissage stratégique à partir de l'expérience. De manière cruciale, D-Artemis améliore les capacités des modèles de langage multimodaux à grande échelle (MLLMs) pour les tâches GUI sans nécessiter d'entraînement sur des ensembles de données complexes de trajectoires, démontrant une forte généralisation. D-Artemis établit de nouveaux résultats de pointe (SOTA) sur les deux principaux benchmarks, atteignant un taux de réussite de 75,8 % sur AndroidWorld et de 96,8 % sur ScreenSpot-V2. Des études d'ablation approfondies démontrent en outre la contribution significative de chaque composant au cadre.
English
Graphical User Interface (GUI) agents aim to automate a wide spectrum of human tasks by emulating user interaction. Despite rapid advancements, current approaches are hindered by several critical challenges: data bottleneck in end-to-end training, high cost of delayed error detection, and risk of contradictory guidance. Inspired by the human cognitive loop of Thinking, Alignment, and Reflection, we present D-Artemis -- a novel deliberative framework in this paper. D-Artemis leverages a fine-grained, app-specific tip retrieval mechanism to inform its decision-making process. It also employs a proactive Pre-execution Alignment stage, where Thought-Action Consistency (TAC) Check module and Action Correction Agent (ACA) work in concert to mitigate the risk of execution failures. A post-execution Status Reflection Agent (SRA) completes the cognitive loop, enabling strategic learning from experience. Crucially, D-Artemis enhances the capabilities of general-purpose Multimodal large language models (MLLMs) for GUI tasks without the need for training on complex trajectory datasets, demonstrating strong generalization. D-Artemis establishes new state-of-the-art (SOTA) results across both major benchmarks, achieving a 75.8% success rate on AndroidWorld and 96.8% on ScreenSpot-V2. Extensive ablation studies further demonstrate the significant contribution of each component to the framework.
PDF82September 29, 2025