D-Artemis: Un Marco Cognitivo Deliberativo para Interfaces Gráficas de Usuario Móviles Multiagentes
D-Artemis: A Deliberative Cognitive Framework for Mobile GUI Multi-Agents
September 26, 2025
Autores: Hongze Mi, Yibo Feng, Wenjie Lu, Yuqi Wang, Jinyuan Li, Song Cao, He Cui, Tengfei Tian, Xuelin Zhang, Haotian Luo, Di Sun, Naiqiang Tan, Gang Pan
cs.AI
Resumen
Los agentes de Interfaz Gráfica de Usuario (GUI, por sus siglas en inglés) buscan automatizar una amplia gama de tareas humanas mediante la emulación de la interacción del usuario. A pesar de los rápidos avances, los enfoques actuales se ven limitados por varios desafíos críticos: el cuello de botella de datos en el entrenamiento de extremo a extremo, el alto costo de la detección tardía de errores y el riesgo de orientación contradictoria. Inspirados por el ciclo cognitivo humano de Pensamiento, Alineación y Reflexión, presentamos D-Artemis, un novedoso marco deliberativo en este artículo. D-Artemis aprovecha un mecanismo de recuperación de sugerencias específicas de la aplicación para informar su proceso de toma de decisiones. También emplea una etapa proactiva de Alineación Pre-ejecución, donde el módulo de Verificación de Consistencia Pensamiento-Acción (TAC, por sus siglas en inglés) y el Agente de Corrección de Acciones (ACA, por sus siglas en inglés) trabajan en conjunto para mitigar el riesgo de fallos en la ejecución. Un Agente de Reflexión de Estado (SRA, por sus siglas en inglés) post-ejecución completa el ciclo cognitivo, permitiendo el aprendizaje estratégico a partir de la experiencia. De manera crucial, D-Artemis mejora las capacidades de los modelos de lenguaje multimodal de propósito general (MLLMs, por sus siglas en inglés) para tareas de GUI sin necesidad de entrenamiento en conjuntos de datos complejos de trayectorias, demostrando una fuerte generalización. D-Artemis establece nuevos resultados de última generación (SOTA, por sus siglas en inglés) en ambos benchmarks principales, logrando una tasa de éxito del 75.8% en AndroidWorld y del 96.8% en ScreenSpot-V2. Estudios de ablación extensos demuestran además la contribución significativa de cada componente al marco.
English
Graphical User Interface (GUI) agents aim to automate a wide spectrum of
human tasks by emulating user interaction. Despite rapid advancements, current
approaches are hindered by several critical challenges: data bottleneck in
end-to-end training, high cost of delayed error detection, and risk of
contradictory guidance. Inspired by the human cognitive loop of Thinking,
Alignment, and Reflection, we present D-Artemis -- a novel deliberative
framework in this paper. D-Artemis leverages a fine-grained, app-specific tip
retrieval mechanism to inform its decision-making process. It also employs a
proactive Pre-execution Alignment stage, where Thought-Action Consistency (TAC)
Check module and Action Correction Agent (ACA) work in concert to mitigate the
risk of execution failures. A post-execution Status Reflection Agent (SRA)
completes the cognitive loop, enabling strategic learning from experience.
Crucially, D-Artemis enhances the capabilities of general-purpose Multimodal
large language models (MLLMs) for GUI tasks without the need for training on
complex trajectory datasets, demonstrating strong generalization. D-Artemis
establishes new state-of-the-art (SOTA) results across both major benchmarks,
achieving a 75.8% success rate on AndroidWorld and 96.8% on ScreenSpot-V2.
Extensive ablation studies further demonstrate the significant contribution of
each component to the framework.