ChatPaper.aiChatPaper

Agentes de Interface Gráfica com Modelos de Linguagem de Grande Escala: Uma Pesquisa

Large Language Model-Brained GUI Agents: A Survey

November 27, 2024
Autores: Chaoyun Zhang, Shilin He, Jiaxu Qian, Bowen Li, Liqun Li, Si Qin, Yu Kang, Minghua Ma, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Qi Zhang
cs.AI

Resumo

As interfaces gráficas de usuário (GUIs) sempre foram centrais para a interação humano-computador, fornecendo uma maneira intuitiva e visual de acessar e interagir com sistemas digitais. O surgimento dos LLMs, especialmente modelos multimodais, trouxe consigo uma nova era de automação de GUI. Eles demonstraram capacidades excepcionais em compreensão de linguagem natural, geração de código e processamento visual. Isso abriu caminho para uma nova geração de agentes de GUI com LLM capazes de interpretar elementos de GUI complexos e executar ações autonomamente com base em instruções em linguagem natural. Esses agentes representam uma mudança de paradigma, permitindo que os usuários realizem tarefas complexas e multi-etapas por meio de comandos de conversação simples. Suas aplicações abrangem a navegação na web, interações com aplicativos móveis e automação de desktop, oferecendo uma experiência de usuário transformadora que revoluciona a forma como os indivíduos interagem com o software. Este campo emergente está avançando rapidamente, com progressos significativos tanto na pesquisa quanto na indústria. Para fornecer uma compreensão estruturada dessa tendência, este artigo apresenta uma pesquisa abrangente sobre agentes de GUI com LLM, explorando sua evolução histórica, componentes principais e técnicas avançadas. Abordamos questões de pesquisa como frameworks de agentes de GUI existentes, a coleta e utilização de dados para treinar agentes de GUI especializados, o desenvolvimento de grandes modelos de ação adaptados para tarefas de GUI e as métricas de avaliação e benchmarks necessários para avaliar sua eficácia. Além disso, examinamos as aplicações emergentes alimentadas por esses agentes. Por meio de uma análise detalhada, esta pesquisa identifica lacunas importantes na pesquisa e esboça um roteiro para futuros avanços no campo. Ao consolidar o conhecimento fundamental e os desenvolvimentos de ponta, este trabalho tem como objetivo orientar tanto pesquisadores quanto profissionais na superação de desafios e no desbloqueio do potencial total dos agentes de GUI com LLM.
English
GUIs have long been central to human-computer interaction, providing an intuitive and visually-driven way to access and interact with digital systems. The advent of LLMs, particularly multimodal models, has ushered in a new era of GUI automation. They have demonstrated exceptional capabilities in natural language understanding, code generation, and visual processing. This has paved the way for a new generation of LLM-brained GUI agents capable of interpreting complex GUI elements and autonomously executing actions based on natural language instructions. These agents represent a paradigm shift, enabling users to perform intricate, multi-step tasks through simple conversational commands. Their applications span across web navigation, mobile app interactions, and desktop automation, offering a transformative user experience that revolutionizes how individuals interact with software. This emerging field is rapidly advancing, with significant progress in both research and industry. To provide a structured understanding of this trend, this paper presents a comprehensive survey of LLM-brained GUI agents, exploring their historical evolution, core components, and advanced techniques. We address research questions such as existing GUI agent frameworks, the collection and utilization of data for training specialized GUI agents, the development of large action models tailored for GUI tasks, and the evaluation metrics and benchmarks necessary to assess their effectiveness. Additionally, we examine emerging applications powered by these agents. Through a detailed analysis, this survey identifies key research gaps and outlines a roadmap for future advancements in the field. By consolidating foundational knowledge and state-of-the-art developments, this work aims to guide both researchers and practitioners in overcoming challenges and unlocking the full potential of LLM-brained GUI agents.

Summary

AI-Generated Summary

PDF323November 28, 2024