ChatPaper.aiChatPaper

Agents Graphiques Utilisateurs : Une Étude

GUI Agents: A Survey

December 18, 2024
Auteurs: Dang Nguyen, Jian Chen, Yu Wang, Gang Wu, Namyong Park, Zhengmian Hu, Hanjia Lyu, Junda Wu, Ryan Aponte, Yu Xia, Xintong Li, Jing Shi, Hongjie Chen, Viet Dac Lai, Zhouhang Xie, Sungchul Kim, Ruiyi Zhang, Tong Yu, Mehrab Tanjim, Nesreen K. Ahmed, Puneet Mathur, Seunghyun Yoon, Lina Yao, Branislav Kveton, Thien Huu Nguyen, Trung Bui, Tianyi Zhou, Ryan A. Rossi, Franck Dernoncourt
cs.AI

Résumé

Les agents d'Interface Utilisateur Graphique (IUG), alimentés par de grands Modèles Fondation, ont émergé comme une approche transformative pour automatiser l'interaction homme-machine. Ces agents interagissent de manière autonome avec des systèmes numériques ou des applications logicielles via des IUG, imitant des actions humaines telles que cliquer, taper et naviguer à travers les éléments visuels sur différentes plateformes. Motivés par l'intérêt croissant et l'importance fondamentale des agents IUG, nous fournissons une enquête approfondie qui catégorise leurs références, métriques d'évaluation, architectures et méthodes d'entraînement. Nous proposons un cadre unifié qui délimite leurs capacités de perception, de raisonnement, de planification et d'action. De plus, nous identifions d'importants défis ouverts et discutons des principales orientations futures. Enfin, ce travail sert de base aux praticiens et chercheurs pour acquérir une compréhension intuitive des progrès actuels, des techniques, des références et des problèmes ouverts critiques qui restent à résoudre.
English
Graphical User Interface (GUI) agents, powered by Large Foundation Models, have emerged as a transformative approach to automating human-computer interaction. These agents autonomously interact with digital systems or software applications via GUIs, emulating human actions such as clicking, typing, and navigating visual elements across diverse platforms. Motivated by the growing interest and fundamental importance of GUI agents, we provide a comprehensive survey that categorizes their benchmarks, evaluation metrics, architectures, and training methods. We propose a unified framework that delineates their perception, reasoning, planning, and acting capabilities. Furthermore, we identify important open challenges and discuss key future directions. Finally, this work serves as a basis for practitioners and researchers to gain an intuitive understanding of current progress, techniques, benchmarks, and critical open problems that remain to be addressed.

Summary

AI-Generated Summary

PDF292December 19, 2024