GUI Agenten: Een Overzicht
GUI Agents: A Survey
December 18, 2024
Auteurs: Dang Nguyen, Jian Chen, Yu Wang, Gang Wu, Namyong Park, Zhengmian Hu, Hanjia Lyu, Junda Wu, Ryan Aponte, Yu Xia, Xintong Li, Jing Shi, Hongjie Chen, Viet Dac Lai, Zhouhang Xie, Sungchul Kim, Ruiyi Zhang, Tong Yu, Mehrab Tanjim, Nesreen K. Ahmed, Puneet Mathur, Seunghyun Yoon, Lina Yao, Branislav Kveton, Thien Huu Nguyen, Trung Bui, Tianyi Zhou, Ryan A. Rossi, Franck Dernoncourt
cs.AI
Samenvatting
Grafische gebruikersinterface (GUI) agenten, aangedreven door Grote Foundation Modellen, zijn naar voren gekomen als een transformerende aanpak om de interactie tussen mens en computer te automatiseren. Deze agenten interacteren autonoom met digitale systemen of softwaretoepassingen via GUI's, waarbij ze menselijke acties zoals klikken, typen en navigeren door visuele elementen op diverse platforms nabootsen. Gedreven door de groeiende interesse en fundamentele belang van GUI agenten, bieden we een uitgebreid overzicht dat hun benchmarks, evaluatiemetrics, architecturen en trainingsmethoden categoriseert. We stellen een verenigd kader voor dat hun perceptie, redenering, planning en handelingsvermogen afbakent. Bovendien identificeren we belangrijke open uitdagingen en bespreken we belangrijke toekomstige richtingen. Tenslotte dient dit werk als basis voor praktijkmensen en onderzoekers om een intuïtief begrip te krijgen van de huidige vooruitgang, technieken, benchmarks en kritieke open problemen die nog moeten worden aangepakt.
English
Graphical User Interface (GUI) agents, powered by Large Foundation Models,
have emerged as a transformative approach to automating human-computer
interaction. These agents autonomously interact with digital systems or
software applications via GUIs, emulating human actions such as clicking,
typing, and navigating visual elements across diverse platforms. Motivated by
the growing interest and fundamental importance of GUI agents, we provide a
comprehensive survey that categorizes their benchmarks, evaluation metrics,
architectures, and training methods. We propose a unified framework that
delineates their perception, reasoning, planning, and acting capabilities.
Furthermore, we identify important open challenges and discuss key future
directions. Finally, this work serves as a basis for practitioners and
researchers to gain an intuitive understanding of current progress, techniques,
benchmarks, and critical open problems that remain to be addressed.