ChatPaper.aiChatPaper

CogAgent: Um Modelo de Linguagem Visual para Agentes de Interface Gráfica

CogAgent: A Visual Language Model for GUI Agents

December 14, 2023
Autores: Wenyi Hong, Weihan Wang, Qingsong Lv, Jiazheng Xu, Wenmeng Yu, Junhui Ji, Yan Wang, Zihan Wang, Yuxiao Dong, Ming Ding, Jie Tang
cs.AI

Resumo

As pessoas estão gastando uma quantidade enorme de tempo em dispositivos digitais por meio de interfaces gráficas de usuário (GUIs), como telas de computador ou smartphones. Modelos de linguagem de grande escala (LLMs), como o ChatGPT, podem auxiliar as pessoas em tarefas como escrever e-mails, mas têm dificuldade em compreender e interagir com GUIs, limitando assim seu potencial para aumentar os níveis de automação. Neste artigo, apresentamos o CogAgent, um modelo de linguagem visual (VLM) com 18 bilhões de parâmetros especializado em compreensão e navegação de GUIs. Ao utilizar codificadores de imagem de baixa e alta resolução, o CogAgent suporta entradas com uma resolução de 1120*1120, permitindo que reconheça elementos de página e textos minúsculos. Como um modelo de linguagem visual generalista, o CogAgent alcança o estado da arte em cinco benchmarks ricos em texto e quatro benchmarks gerais de VQA, incluindo VQAv2, OK-VQA, Text-VQA, ST-VQA, ChartQA, infoVQA, DocVQA, MM-Vet e POPE. O CogAgent, utilizando apenas capturas de tela como entrada, supera métodos baseados em LLMs que consomem texto HTML extraído em tarefas de navegação de GUI tanto em PC quanto em Android — Mind2Web e AITW, avançando o estado da arte. O modelo e os códigos estão disponíveis em https://github.com/THUDM/CogVLM.
English
People are spending an enormous amount of time on digital devices through graphical user interfaces (GUIs), e.g., computer or smartphone screens. Large language models (LLMs) such as ChatGPT can assist people in tasks like writing emails, but struggle to understand and interact with GUIs, thus limiting their potential to increase automation levels. In this paper, we introduce CogAgent, an 18-billion-parameter visual language model (VLM) specializing in GUI understanding and navigation. By utilizing both low-resolution and high-resolution image encoders, CogAgent supports input at a resolution of 1120*1120, enabling it to recognize tiny page elements and text. As a generalist visual language model, CogAgent achieves the state of the art on five text-rich and four general VQA benchmarks, including VQAv2, OK-VQA, Text-VQA, ST-VQA, ChartQA, infoVQA, DocVQA, MM-Vet, and POPE. CogAgent, using only screenshots as input, outperforms LLM-based methods that consume extracted HTML text on both PC and Android GUI navigation tasks -- Mind2Web and AITW, advancing the state of the art. The model and codes are available at https://github.com/THUDM/CogVLM.
PDF312December 15, 2024