ChatPaper.aiChatPaper

CogAgent: Un Modelo de Lenguaje Visual para Agentes de Interfaz Gráfica de Usuario

CogAgent: A Visual Language Model for GUI Agents

December 14, 2023
Autores: Wenyi Hong, Weihan Wang, Qingsong Lv, Jiazheng Xu, Wenmeng Yu, Junhui Ji, Yan Wang, Zihan Wang, Yuxiao Dong, Ming Ding, Jie Tang
cs.AI

Resumen

Las personas están dedicando una enorme cantidad de tiempo a dispositivos digitales a través de interfaces gráficas de usuario (GUIs), como pantallas de computadoras o smartphones. Los modelos de lenguaje de gran escala (LLMs), como ChatGPT, pueden ayudar a las personas en tareas como redactar correos electrónicos, pero tienen dificultades para comprender e interactuar con las GUIs, lo que limita su potencial para aumentar los niveles de automatización. En este artículo, presentamos CogAgent, un modelo de lenguaje visual (VLM) de 18 mil millones de parámetros especializado en la comprensión y navegación de GUIs. Al utilizar codificadores de imágenes de baja y alta resolución, CogAgent admite entradas con una resolución de 1120*1120, lo que le permite reconocer elementos de página y texto diminutos. Como modelo de lenguaje visual generalista, CogAgent alcanza el estado del arte en cinco benchmarks ricos en texto y cuatro benchmarks generales de VQA, incluyendo VQAv2, OK-VQA, Text-VQA, ST-VQA, ChartQA, infoVQA, DocVQA, MM-Vet y POPE. CogAgent, utilizando únicamente capturas de pantalla como entrada, supera a los métodos basados en LLMs que consumen texto HTML extraído en tareas de navegación de GUIs tanto en PC como en Android — Mind2Web y AITW, avanzando el estado del arte. El modelo y los códigos están disponibles en https://github.com/THUDM/CogVLM.
English
People are spending an enormous amount of time on digital devices through graphical user interfaces (GUIs), e.g., computer or smartphone screens. Large language models (LLMs) such as ChatGPT can assist people in tasks like writing emails, but struggle to understand and interact with GUIs, thus limiting their potential to increase automation levels. In this paper, we introduce CogAgent, an 18-billion-parameter visual language model (VLM) specializing in GUI understanding and navigation. By utilizing both low-resolution and high-resolution image encoders, CogAgent supports input at a resolution of 1120*1120, enabling it to recognize tiny page elements and text. As a generalist visual language model, CogAgent achieves the state of the art on five text-rich and four general VQA benchmarks, including VQAv2, OK-VQA, Text-VQA, ST-VQA, ChartQA, infoVQA, DocVQA, MM-Vet, and POPE. CogAgent, using only screenshots as input, outperforms LLM-based methods that consume extracted HTML text on both PC and Android GUI navigation tasks -- Mind2Web and AITW, advancing the state of the art. The model and codes are available at https://github.com/THUDM/CogVLM.
PDF312December 15, 2024