D-Artemis: Когнитивная структура для принятия решений в мобильных графических интерфейсах с использованием мультиагентных систем
D-Artemis: A Deliberative Cognitive Framework for Mobile GUI Multi-Agents
September 26, 2025
Авторы: Hongze Mi, Yibo Feng, Wenjie Lu, Yuqi Wang, Jinyuan Li, Song Cao, He Cui, Tengfei Tian, Xuelin Zhang, Haotian Luo, Di Sun, Naiqiang Tan, Gang Pan
cs.AI
Аннотация
Агенты с графическим пользовательским интерфейсом (GUI) стремятся автоматизировать широкий спектр человеческих задач, имитируя взаимодействие пользователя. Несмотря на быстрый прогресс, современные подходы сталкиваются с несколькими критическими проблемами: узким местом в данных при сквозном обучении, высокой стоимостью задержек в обнаружении ошибок и риском противоречивых указаний. Вдохновленные когнитивным циклом человека, включающим Мышление, Согласование и Рефлексию, мы представляем D-Artemis — новую концептуальную структуру в данной статье. D-Artemis использует детализированный механизм извлечения подсказок, специфичных для приложений, чтобы информировать процесс принятия решений. Он также включает активный этап Предварительного Согласования, где модуль Проверки Согласованности Мыслей и Действий (TAC) и Агент Коррекции Действий (ACA) работают совместно для снижения риска сбоев выполнения. Агент Рефлексии Состояния (SRA) после выполнения завершает когнитивный цикл, позволяя стратегическое обучение на основе опыта. Важно отметить, что D-Artemis расширяет возможности универсальных мультимодальных больших языковых моделей (MLLMs) для задач GUI без необходимости обучения на сложных наборах данных траекторий, демонстрируя сильную обобщаемость. D-Artemis устанавливает новые передовые результаты (SOTA) на обоих основных тестовых наборах, достигая 75,8% успешности на AndroidWorld и 96,8% на ScreenSpot-V2. Обширные исследования по удалению компонентов дополнительно демонстрируют значительный вклад каждого элемента в структуру.
English
Graphical User Interface (GUI) agents aim to automate a wide spectrum of
human tasks by emulating user interaction. Despite rapid advancements, current
approaches are hindered by several critical challenges: data bottleneck in
end-to-end training, high cost of delayed error detection, and risk of
contradictory guidance. Inspired by the human cognitive loop of Thinking,
Alignment, and Reflection, we present D-Artemis -- a novel deliberative
framework in this paper. D-Artemis leverages a fine-grained, app-specific tip
retrieval mechanism to inform its decision-making process. It also employs a
proactive Pre-execution Alignment stage, where Thought-Action Consistency (TAC)
Check module and Action Correction Agent (ACA) work in concert to mitigate the
risk of execution failures. A post-execution Status Reflection Agent (SRA)
completes the cognitive loop, enabling strategic learning from experience.
Crucially, D-Artemis enhances the capabilities of general-purpose Multimodal
large language models (MLLMs) for GUI tasks without the need for training on
complex trajectory datasets, demonstrating strong generalization. D-Artemis
establishes new state-of-the-art (SOTA) results across both major benchmarks,
achieving a 75.8% success rate on AndroidWorld and 96.8% on ScreenSpot-V2.
Extensive ablation studies further demonstrate the significant contribution of
each component to the framework.