ChatPaper.aiChatPaper

D-Artemis: Un Framework Cognitivo Deliberativo per GUI Mobili Multi-Agente

D-Artemis: A Deliberative Cognitive Framework for Mobile GUI Multi-Agents

September 26, 2025
Autori: Hongze Mi, Yibo Feng, Wenjie Lu, Yuqi Wang, Jinyuan Li, Song Cao, He Cui, Tengfei Tian, Xuelin Zhang, Haotian Luo, Di Sun, Naiqiang Tan, Gang Pan
cs.AI

Abstract

Gli agenti di Interfaccia Grafica Utente (GUI) mirano ad automatizzare un'ampia gamma di compiti umani emulando l'interazione dell'utente. Nonostante i rapidi progressi, gli approcci attuali sono ostacolati da diverse sfide critiche: il collo di bottiglia dei dati nell'addestramento end-to-end, l'elevato costo del rilevamento ritardato degli errori e il rischio di indicazioni contraddittorie. Ispirati dal ciclo cognitivo umano di Pensiero, Allineamento e Riflessione, presentiamo D-Artemis -- un nuovo framework deliberativo in questo articolo. D-Artemis sfrutta un meccanismo di recupero di suggerimenti specifici per l'applicazione, fine e granulare, per informare il suo processo decisionale. Impiega inoltre una fase proattiva di Allineamento Pre-esecuzione, in cui il modulo di Controllo della Coerenza Pensiero-Azione (TAC) e l'Agente di Correzione delle Azioni (ACA) lavorano in concerto per mitigare il rischio di fallimenti nell'esecuzione. Un Agente di Riflessione sullo Stato (SRA) post-esecuzione completa il ciclo cognitivo, consentendo un apprendimento strategico dall'esperienza. In modo cruciale, D-Artemis potenzia le capacità dei modelli linguistici multimodali di grandi dimensioni (MLLM) per i compiti GUI senza la necessità di addestramento su complessi dataset di traiettorie, dimostrando una forte generalizzazione. D-Artemis stabilisce nuovi risultati all'avanguardia (SOTA) su entrambi i principali benchmark, raggiungendo un tasso di successo del 75,8% su AndroidWorld e del 96,8% su ScreenSpot-V2. Estesi studi di ablazione dimostrano ulteriormente il significativo contributo di ciascun componente al framework.
English
Graphical User Interface (GUI) agents aim to automate a wide spectrum of human tasks by emulating user interaction. Despite rapid advancements, current approaches are hindered by several critical challenges: data bottleneck in end-to-end training, high cost of delayed error detection, and risk of contradictory guidance. Inspired by the human cognitive loop of Thinking, Alignment, and Reflection, we present D-Artemis -- a novel deliberative framework in this paper. D-Artemis leverages a fine-grained, app-specific tip retrieval mechanism to inform its decision-making process. It also employs a proactive Pre-execution Alignment stage, where Thought-Action Consistency (TAC) Check module and Action Correction Agent (ACA) work in concert to mitigate the risk of execution failures. A post-execution Status Reflection Agent (SRA) completes the cognitive loop, enabling strategic learning from experience. Crucially, D-Artemis enhances the capabilities of general-purpose Multimodal large language models (MLLMs) for GUI tasks without the need for training on complex trajectory datasets, demonstrating strong generalization. D-Artemis establishes new state-of-the-art (SOTA) results across both major benchmarks, achieving a 75.8% success rate on AndroidWorld and 96.8% on ScreenSpot-V2. Extensive ablation studies further demonstrate the significant contribution of each component to the framework.
PDF82September 29, 2025