Agentes de Interfaz Gráfica de Usuario: Una Encuesta
GUI Agents: A Survey
December 18, 2024
Autores: Dang Nguyen, Jian Chen, Yu Wang, Gang Wu, Namyong Park, Zhengmian Hu, Hanjia Lyu, Junda Wu, Ryan Aponte, Yu Xia, Xintong Li, Jing Shi, Hongjie Chen, Viet Dac Lai, Zhouhang Xie, Sungchul Kim, Ruiyi Zhang, Tong Yu, Mehrab Tanjim, Nesreen K. Ahmed, Puneet Mathur, Seunghyun Yoon, Lina Yao, Branislav Kveton, Thien Huu Nguyen, Trung Bui, Tianyi Zhou, Ryan A. Rossi, Franck Dernoncourt
cs.AI
Resumen
Los agentes de Interfaz Gráfica de Usuario (GUI), impulsados por Modelos de Gran Escala, han surgido como un enfoque transformador para automatizar la interacción humano-computadora. Estos agentes interactúan de forma autónoma con sistemas digitales o aplicaciones de software a través de GUIs, emulando acciones humanas como hacer clic, escribir y navegar elementos visuales en diversas plataformas. Motivados por el creciente interés y la importancia fundamental de los agentes GUI, proporcionamos un estudio exhaustivo que categoriza sus puntos de referencia, métricas de evaluación, arquitecturas y métodos de entrenamiento. Proponemos un marco unificado que delinea sus capacidades de percepción, razonamiento, planificación y actuación. Además, identificamos importantes desafíos abiertos y discutimos las principales direcciones futuras. Finalmente, este trabajo sirve como base para que los profesionales e investigadores obtengan una comprensión intuitiva del progreso actual, técnicas, puntos de referencia y problemas abiertos críticos que aún deben abordarse.
English
Graphical User Interface (GUI) agents, powered by Large Foundation Models,
have emerged as a transformative approach to automating human-computer
interaction. These agents autonomously interact with digital systems or
software applications via GUIs, emulating human actions such as clicking,
typing, and navigating visual elements across diverse platforms. Motivated by
the growing interest and fundamental importance of GUI agents, we provide a
comprehensive survey that categorizes their benchmarks, evaluation metrics,
architectures, and training methods. We propose a unified framework that
delineates their perception, reasoning, planning, and acting capabilities.
Furthermore, we identify important open challenges and discuss key future
directions. Finally, this work serves as a basis for practitioners and
researchers to gain an intuitive understanding of current progress, techniques,
benchmarks, and critical open problems that remain to be addressed.Summary
AI-Generated Summary