ChatPaper.aiChatPaper

Große Sprachmodell-basierte GUI-Agenten: Eine Übersicht

Large Language Model-Brained GUI Agents: A Survey

November 27, 2024
Autoren: Chaoyun Zhang, Shilin He, Jiaxu Qian, Bowen Li, Liqun Li, Si Qin, Yu Kang, Minghua Ma, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Qi Zhang
cs.AI

Zusammenfassung

GUIs sind schon lange zentral für die Mensch-Computer-Interaktion, da sie einen intuitiven und visuell gesteuerten Weg bieten, um auf digitale Systeme zuzugreifen und mit ihnen zu interagieren. Das Aufkommen von LLMs, insbesondere multimodalen Modellen, hat eine neue Ära der GUI-Automatisierung eingeläutet. Sie haben außergewöhnliche Fähigkeiten in der natürlichen Sprachverarbeitung, der Codegenerierung und der visuellen Verarbeitung gezeigt. Dies hat den Weg für eine neue Generation von LLM-gesteuerten GUI-Agenten geebnet, die in der Lage sind, komplexe GUI-Elemente zu interpretieren und autonom Aktionen auf der Grundlage von natürlichsprachlichen Anweisungen auszuführen. Diese Agenten stellen einen Paradigmenwechsel dar, der es Benutzern ermöglicht, komplexe, mehrstufige Aufgaben durch einfache Gesprächsbefehle auszuführen. Ihre Anwendungen erstrecken sich über die Webnavigation, die Interaktion mit mobilen Apps und die Desktop-Automatisierung und bieten ein transformierendes Benutzererlebnis, das verändert, wie Personen mit Software interagieren. Dieses aufstrebende Feld entwickelt sich schnell weiter, mit signifikanten Fortschritten sowohl in der Forschung als auch in der Industrie. Um ein strukturiertes Verständnis dieses Trends zu bieten, präsentiert dieser Artikel eine umfassende Untersuchung von LLM-gesteuerten GUI-Agenten, die ihre historische Entwicklung, Kernkomponenten und fortgeschrittenen Techniken erforscht. Wir behandeln Forschungsfragen wie bestehende GUI-Agenten-Frameworks, die Sammlung und Verwendung von Daten zur Schulung spezialisierter GUI-Agenten, die Entwicklung großer Aktionsmodelle, die auf GUI-Aufgaben zugeschnitten sind, und die Evaluierungsmetriken und Benchmarks, die erforderlich sind, um ihre Effektivität zu bewerten. Darüber hinaus untersuchen wir aufkommende Anwendungen, die von diesen Agenten unterstützt werden. Durch eine detaillierte Analyse identifiziert diese Untersuchung wesentliche Forschungslücken und skizziert einen Fahrplan für zukünftige Fortschritte auf diesem Gebiet. Indem grundlegendes Wissen und die neuesten Entwicklungen zusammengeführt werden, zielt diese Arbeit darauf ab, sowohl Forscher als auch Praktiker dabei zu unterstützen, Herausforderungen zu bewältigen und das volle Potenzial von LLM-gesteuerten GUI-Agenten zu erschließen.
English
GUIs have long been central to human-computer interaction, providing an intuitive and visually-driven way to access and interact with digital systems. The advent of LLMs, particularly multimodal models, has ushered in a new era of GUI automation. They have demonstrated exceptional capabilities in natural language understanding, code generation, and visual processing. This has paved the way for a new generation of LLM-brained GUI agents capable of interpreting complex GUI elements and autonomously executing actions based on natural language instructions. These agents represent a paradigm shift, enabling users to perform intricate, multi-step tasks through simple conversational commands. Their applications span across web navigation, mobile app interactions, and desktop automation, offering a transformative user experience that revolutionizes how individuals interact with software. This emerging field is rapidly advancing, with significant progress in both research and industry. To provide a structured understanding of this trend, this paper presents a comprehensive survey of LLM-brained GUI agents, exploring their historical evolution, core components, and advanced techniques. We address research questions such as existing GUI agent frameworks, the collection and utilization of data for training specialized GUI agents, the development of large action models tailored for GUI tasks, and the evaluation metrics and benchmarks necessary to assess their effectiveness. Additionally, we examine emerging applications powered by these agents. Through a detailed analysis, this survey identifies key research gaps and outlines a roadmap for future advancements in the field. By consolidating foundational knowledge and state-of-the-art developments, this work aims to guide both researchers and practitioners in overcoming challenges and unlocking the full potential of LLM-brained GUI agents.

Summary

AI-Generated Summary

PDF323November 28, 2024