ChatPaper.aiChatPaper

GUI-Agenten: Eine Übersicht

GUI Agents: A Survey

December 18, 2024
Autoren: Dang Nguyen, Jian Chen, Yu Wang, Gang Wu, Namyong Park, Zhengmian Hu, Hanjia Lyu, Junda Wu, Ryan Aponte, Yu Xia, Xintong Li, Jing Shi, Hongjie Chen, Viet Dac Lai, Zhouhang Xie, Sungchul Kim, Ruiyi Zhang, Tong Yu, Mehrab Tanjim, Nesreen K. Ahmed, Puneet Mathur, Seunghyun Yoon, Lina Yao, Branislav Kveton, Thien Huu Nguyen, Trung Bui, Tianyi Zhou, Ryan A. Rossi, Franck Dernoncourt
cs.AI

Zusammenfassung

Grafische Benutzeroberfläche (GUI)-Agenten, die von großen Grundlagenmodellen angetrieben werden, haben sich als ein transformativer Ansatz zur Automatisierung der Mensch-Computer-Interaktion herauskristallisiert. Diese Agenten interagieren autonom mit digitalen Systemen oder Softwareanwendungen über GUIs und ahmen menschliche Aktionen wie Klicken, Tippen und Navigieren von visuellen Elementen auf verschiedenen Plattformen nach. Angespornt durch das wachsende Interesse und die grundlegende Bedeutung von GUI-Agenten, bieten wir eine umfassende Übersicht, die ihre Benchmarks, Evaluierungsmetriken, Architekturen und Trainingsmethoden kategorisiert. Wir schlagen ein einheitliches Rahmenwerk vor, das ihre Wahrnehmungs-, Schlussfolgerungs-, Planungs- und Handlungsfähigkeiten abgrenzt. Darüber hinaus identifizieren wir wichtige offene Herausforderungen und diskutieren Schlüsselrichtungen für die Zukunft. Abschließend dient diese Arbeit als Grundlage für Praktiker und Forscher, um ein intuitives Verständnis über den aktuellen Fortschritt, Techniken, Benchmarks und kritische offene Probleme zu erlangen, die noch angegangen werden müssen.
English
Graphical User Interface (GUI) agents, powered by Large Foundation Models, have emerged as a transformative approach to automating human-computer interaction. These agents autonomously interact with digital systems or software applications via GUIs, emulating human actions such as clicking, typing, and navigating visual elements across diverse platforms. Motivated by the growing interest and fundamental importance of GUI agents, we provide a comprehensive survey that categorizes their benchmarks, evaluation metrics, architectures, and training methods. We propose a unified framework that delineates their perception, reasoning, planning, and acting capabilities. Furthermore, we identify important open challenges and discuss key future directions. Finally, this work serves as a basis for practitioners and researchers to gain an intuitive understanding of current progress, techniques, benchmarks, and critical open problems that remain to be addressed.

Summary

AI-Generated Summary

PDF292December 19, 2024