Agentes de GUI con Grandes Modelos de Lenguaje: Una Encuesta
Large Language Model-Brained GUI Agents: A Survey
November 27, 2024
Autores: Chaoyun Zhang, Shilin He, Jiaxu Qian, Bowen Li, Liqun Li, Si Qin, Yu Kang, Minghua Ma, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Qi Zhang
cs.AI
Resumen
Las interfaces gráficas de usuario (GUIs) han sido fundamentales en la interacción humano-computadora, proporcionando una forma intuitiva y visual de acceder e interactuar con sistemas digitales. La llegada de los LLMs, en particular los modelos multimodales, ha marcado el inicio de una nueva era de automatización de GUIs. Han demostrado capacidades excepcionales en comprensión del lenguaje natural, generación de código y procesamiento visual. Esto ha allanado el camino para una nueva generación de agentes de GUI con LLM capaces de interpretar elementos de GUI complejos y ejecutar acciones de forma autónoma basándose en instrucciones en lenguaje natural. Estos agentes representan un cambio de paradigma, permitiendo a los usuarios realizar tareas complejas y de múltiples pasos a través de comandos conversacionales simples. Sus aplicaciones abarcan desde la navegación web, interacciones con aplicaciones móviles, hasta la automatización de escritorios, ofreciendo una experiencia de usuario transformadora que revoluciona la interacción de los individuos con el software. Este campo emergente avanza rápidamente, con progresos significativos tanto en la investigación como en la industria.
Para proporcionar una comprensión estructurada de esta tendencia, este artículo presenta un estudio exhaustivo de agentes de GUI con LLM, explorando su evolución histórica, componentes principales y técnicas avanzadas. Abordamos preguntas de investigación como los marcos existentes de agentes de GUI, la recopilación y utilización de datos para entrenar agentes de GUI especializados, el desarrollo de modelos de acción extensos adaptados para tareas de GUI, y las métricas de evaluación y puntos de referencia necesarios para evaluar su efectividad. Además, examinamos las aplicaciones emergentes impulsadas por estos agentes. A través de un análisis detallado, este estudio identifica brechas clave en la investigación y esboza una hoja de ruta para futuros avances en el campo. Al consolidar conocimientos fundamentales y desarrollos de vanguardia, este trabajo tiene como objetivo guiar tanto a investigadores como a profesionales en la superación de desafíos y en la realización del pleno potencial de los agentes de GUI con LLM.
English
GUIs have long been central to human-computer interaction, providing an
intuitive and visually-driven way to access and interact with digital systems.
The advent of LLMs, particularly multimodal models, has ushered in a new era of
GUI automation. They have demonstrated exceptional capabilities in natural
language understanding, code generation, and visual processing. This has paved
the way for a new generation of LLM-brained GUI agents capable of interpreting
complex GUI elements and autonomously executing actions based on natural
language instructions. These agents represent a paradigm shift, enabling users
to perform intricate, multi-step tasks through simple conversational commands.
Their applications span across web navigation, mobile app interactions, and
desktop automation, offering a transformative user experience that
revolutionizes how individuals interact with software. This emerging field is
rapidly advancing, with significant progress in both research and industry.
To provide a structured understanding of this trend, this paper presents a
comprehensive survey of LLM-brained GUI agents, exploring their historical
evolution, core components, and advanced techniques. We address research
questions such as existing GUI agent frameworks, the collection and utilization
of data for training specialized GUI agents, the development of large action
models tailored for GUI tasks, and the evaluation metrics and benchmarks
necessary to assess their effectiveness. Additionally, we examine emerging
applications powered by these agents. Through a detailed analysis, this survey
identifies key research gaps and outlines a roadmap for future advancements in
the field. By consolidating foundational knowledge and state-of-the-art
developments, this work aims to guide both researchers and practitioners in
overcoming challenges and unlocking the full potential of LLM-brained GUI
agents.Summary
AI-Generated Summary