AppAgentX : Évolution des agents d'interface graphique en utilisateurs experts de smartphones
AppAgentX: Evolving GUI Agents as Proficient Smartphone Users
March 4, 2025
Auteurs: Wenjia Jiang, Yangyang Zhuang, Chenxi Song, Xu Yang, Chi Zhang
cs.AI
Résumé
Les récents progrès dans les modèles de langage de grande taille (LLMs) ont conduit au développement d'agents intelligents basés sur ces modèles, capables d'interagir avec des interfaces graphiques (GUIs). Ces agents démontrent une forte capacité de raisonnement et d'adaptation, leur permettant d'accomplir des tâches complexes qui nécessitaient traditionnellement des règles prédéfinies. Cependant, la dépendance à un raisonnement étape par étape dans les agents basés sur les LLMs entraîne souvent des inefficacités, en particulier pour les tâches routinières. À l'inverse, les systèmes traditionnels basés sur des règles excellent en termes d'efficacité mais manquent d'intelligence et de flexibilité pour s'adapter à des scénarios nouveaux. Pour relever ce défi, nous proposons un cadre évolutif novateur pour les agents GUI qui améliore l'efficacité opérationnelle tout en conservant l'intelligence et la flexibilité. Notre approche intègre un mécanisme de mémoire qui enregistre l'historique d'exécution des tâches de l'agent. En analysant cet historique, l'agent identifie des séquences d'actions répétitives et développe des actions de haut niveau qui servent de raccourcis, remplaçant ces opérations de bas niveau et améliorant ainsi l'efficacité. Cela permet à l'agent de se concentrer sur les tâches nécessitant un raisonnement plus complexe, tout en simplifiant les actions routinières. Les résultats expérimentaux sur plusieurs tâches de référence montrent que notre approche surpasse significativement les méthodes existantes en termes d'efficacité et de précision. Le code sera rendu public pour soutenir les recherches futures.
English
Recent advancements in Large Language Models (LLMs) have led to the
development of intelligent LLM-based agents capable of interacting with
graphical user interfaces (GUIs). These agents demonstrate strong reasoning and
adaptability, enabling them to perform complex tasks that traditionally
required predefined rules. However, the reliance on step-by-step reasoning in
LLM-based agents often results in inefficiencies, particularly for routine
tasks. In contrast, traditional rule-based systems excel in efficiency but lack
the intelligence and flexibility to adapt to novel scenarios. To address this
challenge, we propose a novel evolutionary framework for GUI agents that
enhances operational efficiency while retaining intelligence and flexibility.
Our approach incorporates a memory mechanism that records the agent's task
execution history. By analyzing this history, the agent identifies repetitive
action sequences and evolves high-level actions that act as shortcuts,
replacing these low-level operations and improving efficiency. This allows the
agent to focus on tasks requiring more complex reasoning, while simplifying
routine actions. Experimental results on multiple benchmark tasks demonstrate
that our approach significantly outperforms existing methods in both efficiency
and accuracy. The code will be open-sourced to support further research.Summary
AI-Generated Summary