GUI-Agenten: Eine Übersicht
GUI Agents: A Survey
December 18, 2024
Autoren: Dang Nguyen, Jian Chen, Yu Wang, Gang Wu, Namyong Park, Zhengmian Hu, Hanjia Lyu, Junda Wu, Ryan Aponte, Yu Xia, Xintong Li, Jing Shi, Hongjie Chen, Viet Dac Lai, Zhouhang Xie, Sungchul Kim, Ruiyi Zhang, Tong Yu, Mehrab Tanjim, Nesreen K. Ahmed, Puneet Mathur, Seunghyun Yoon, Lina Yao, Branislav Kveton, Thien Huu Nguyen, Trung Bui, Tianyi Zhou, Ryan A. Rossi, Franck Dernoncourt
cs.AI
Zusammenfassung
Grafische Benutzeroberfläche (GUI)-Agenten, die von großen Grundlagenmodellen angetrieben werden, haben sich als ein transformativer Ansatz zur Automatisierung der Mensch-Computer-Interaktion herauskristallisiert. Diese Agenten interagieren autonom mit digitalen Systemen oder Softwareanwendungen über GUIs und ahmen menschliche Aktionen wie Klicken, Tippen und Navigieren von visuellen Elementen auf verschiedenen Plattformen nach. Angespornt durch das wachsende Interesse und die grundlegende Bedeutung von GUI-Agenten, bieten wir eine umfassende Übersicht, die ihre Benchmarks, Evaluierungsmetriken, Architekturen und Trainingsmethoden kategorisiert. Wir schlagen ein einheitliches Rahmenwerk vor, das ihre Wahrnehmungs-, Schlussfolgerungs-, Planungs- und Handlungsfähigkeiten abgrenzt. Darüber hinaus identifizieren wir wichtige offene Herausforderungen und diskutieren Schlüsselrichtungen für die Zukunft. Abschließend dient diese Arbeit als Grundlage für Praktiker und Forscher, um ein intuitives Verständnis über den aktuellen Fortschritt, Techniken, Benchmarks und kritische offene Probleme zu erlangen, die noch angegangen werden müssen.
English
Graphical User Interface (GUI) agents, powered by Large Foundation Models,
have emerged as a transformative approach to automating human-computer
interaction. These agents autonomously interact with digital systems or
software applications via GUIs, emulating human actions such as clicking,
typing, and navigating visual elements across diverse platforms. Motivated by
the growing interest and fundamental importance of GUI agents, we provide a
comprehensive survey that categorizes their benchmarks, evaluation metrics,
architectures, and training methods. We propose a unified framework that
delineates their perception, reasoning, planning, and acting capabilities.
Furthermore, we identify important open challenges and discuss key future
directions. Finally, this work serves as a basis for practitioners and
researchers to gain an intuitive understanding of current progress, techniques,
benchmarks, and critical open problems that remain to be addressed.Summary
AI-Generated Summary