GUI-Agenten: Eine Übersicht

papers.abstract

Grafische Benutzeroberfläche (GUI)-Agenten, die von großen Grundlagenmodellen angetrieben werden, haben sich als ein transformativer Ansatz zur Automatisierung der Mensch-Computer-Interaktion herauskristallisiert. Diese Agenten interagieren autonom mit digitalen Systemen oder Softwareanwendungen über GUIs und ahmen menschliche Aktionen wie Klicken, Tippen und Navigieren von visuellen Elementen auf verschiedenen Plattformen nach. Angespornt durch das wachsende Interesse und die grundlegende Bedeutung von GUI-Agenten, bieten wir eine umfassende Übersicht, die ihre Benchmarks, Evaluierungsmetriken, Architekturen und Trainingsmethoden kategorisiert. Wir schlagen ein einheitliches Rahmenwerk vor, das ihre Wahrnehmungs-, Schlussfolgerungs-, Planungs- und Handlungsfähigkeiten abgrenzt. Darüber hinaus identifizieren wir wichtige offene Herausforderungen und diskutieren Schlüsselrichtungen für die Zukunft. Abschließend dient diese Arbeit als Grundlage für Praktiker und Forscher, um ein intuitives Verständnis über den aktuellen Fortschritt, Techniken, Benchmarks und kritische offene Probleme zu erlangen, die noch angegangen werden müssen.

English

Graphical User Interface (GUI) agents, powered by Large Foundation Models, have emerged as a transformative approach to automating human-computer interaction. These agents autonomously interact with digital systems or software applications via GUIs, emulating human actions such as clicking, typing, and navigating visual elements across diverse platforms. Motivated by the growing interest and fundamental importance of GUI agents, we provide a comprehensive survey that categorizes their benchmarks, evaluation metrics, architectures, and training methods. We propose a unified framework that delineates their perception, reasoning, planning, and acting capabilities. Furthermore, we identify important open challenges and discuss key future directions. Finally, this work serves as a basis for practitioners and researchers to gain an intuitive understanding of current progress, techniques, benchmarks, and critical open problems that remain to be addressed.

GUI-Agenten: Eine Übersicht

GUI Agents: A Survey

papers.abstract

Support