AppAgentX : Évolution des agents d'interface graphique en utilisateurs experts de smartphones

papers.abstract

Les récents progrès dans les modèles de langage de grande taille (LLMs) ont conduit au développement d'agents intelligents basés sur ces modèles, capables d'interagir avec des interfaces graphiques (GUIs). Ces agents démontrent une forte capacité de raisonnement et d'adaptation, leur permettant d'accomplir des tâches complexes qui nécessitaient traditionnellement des règles prédéfinies. Cependant, la dépendance à un raisonnement étape par étape dans les agents basés sur les LLMs entraîne souvent des inefficacités, en particulier pour les tâches routinières. À l'inverse, les systèmes traditionnels basés sur des règles excellent en termes d'efficacité mais manquent d'intelligence et de flexibilité pour s'adapter à des scénarios nouveaux. Pour relever ce défi, nous proposons un cadre évolutif novateur pour les agents GUI qui améliore l'efficacité opérationnelle tout en conservant l'intelligence et la flexibilité. Notre approche intègre un mécanisme de mémoire qui enregistre l'historique d'exécution des tâches de l'agent. En analysant cet historique, l'agent identifie des séquences d'actions répétitives et développe des actions de haut niveau qui servent de raccourcis, remplaçant ces opérations de bas niveau et améliorant ainsi l'efficacité. Cela permet à l'agent de se concentrer sur les tâches nécessitant un raisonnement plus complexe, tout en simplifiant les actions routinières. Les résultats expérimentaux sur plusieurs tâches de référence montrent que notre approche surpasse significativement les méthodes existantes en termes d'efficacité et de précision. Le code sera rendu public pour soutenir les recherches futures.

English

Recent advancements in Large Language Models (LLMs) have led to the development of intelligent LLM-based agents capable of interacting with graphical user interfaces (GUIs). These agents demonstrate strong reasoning and adaptability, enabling them to perform complex tasks that traditionally required predefined rules. However, the reliance on step-by-step reasoning in LLM-based agents often results in inefficiencies, particularly for routine tasks. In contrast, traditional rule-based systems excel in efficiency but lack the intelligence and flexibility to adapt to novel scenarios. To address this challenge, we propose a novel evolutionary framework for GUI agents that enhances operational efficiency while retaining intelligence and flexibility. Our approach incorporates a memory mechanism that records the agent's task execution history. By analyzing this history, the agent identifies repetitive action sequences and evolves high-level actions that act as shortcuts, replacing these low-level operations and improving efficiency. This allows the agent to focus on tasks requiring more complex reasoning, while simplifying routine actions. Experimental results on multiple benchmark tasks demonstrate that our approach significantly outperforms existing methods in both efficiency and accuracy. The code will be open-sourced to support further research.

AppAgentX : Évolution des agents d'interface graphique en utilisateurs experts de smartphones

AppAgentX: Evolving GUI Agents as Proficient Smartphone Users

papers.abstract

Support