ChatPaper.aiChatPaper

CogAgent : Un modèle de langage visuel pour les agents d'interface graphique

CogAgent: A Visual Language Model for GUI Agents

December 14, 2023
Auteurs: Wenyi Hong, Weihan Wang, Qingsong Lv, Jiazheng Xu, Wenmeng Yu, Junhui Ji, Yan Wang, Zihan Wang, Yuxiao Dong, Ming Ding, Jie Tang
cs.AI

Résumé

Les individus passent un temps considérable sur des appareils numériques via des interfaces graphiques (GUIs), telles que les écrans d'ordinateur ou de smartphone. Les grands modèles de langage (LLMs) comme ChatGPT peuvent assister les utilisateurs dans des tâches telles que la rédaction d'e-mails, mais peinent à comprendre et interagir avec les GUIs, limitant ainsi leur potentiel à accroître les niveaux d'automatisation. Dans cet article, nous présentons CogAgent, un modèle de langage visuel (VLM) de 18 milliards de paramètres spécialisé dans la compréhension et la navigation des GUIs. En utilisant à la fois des encodeurs d'images basse et haute résolution, CogAgent prend en charge des entrées à une résolution de 1120*1120, lui permettant de reconnaître des éléments de page et du texte de petite taille. En tant que modèle de langage visuel généraliste, CogAgent établit l'état de l'art sur cinq benchmarks riches en texte et quatre benchmarks généraux de question-réponse visuelle (VQA), incluant VQAv2, OK-VQA, Text-VQA, ST-VQA, ChartQA, infoVQA, DocVQA, MM-Vet et POPE. CogAgent, utilisant uniquement des captures d'écran comme entrée, surpasse les méthodes basées sur LLM qui consomment du texte HTML extrait dans des tâches de navigation sur GUI PC et Android — Mind2Web et AITW, repoussant ainsi les limites de l'état de l'art. Le modèle et les codes sont disponibles à l'adresse https://github.com/THUDM/CogVLM.
English
People are spending an enormous amount of time on digital devices through graphical user interfaces (GUIs), e.g., computer or smartphone screens. Large language models (LLMs) such as ChatGPT can assist people in tasks like writing emails, but struggle to understand and interact with GUIs, thus limiting their potential to increase automation levels. In this paper, we introduce CogAgent, an 18-billion-parameter visual language model (VLM) specializing in GUI understanding and navigation. By utilizing both low-resolution and high-resolution image encoders, CogAgent supports input at a resolution of 1120*1120, enabling it to recognize tiny page elements and text. As a generalist visual language model, CogAgent achieves the state of the art on five text-rich and four general VQA benchmarks, including VQAv2, OK-VQA, Text-VQA, ST-VQA, ChartQA, infoVQA, DocVQA, MM-Vet, and POPE. CogAgent, using only screenshots as input, outperforms LLM-based methods that consume extracted HTML text on both PC and Android GUI navigation tasks -- Mind2Web and AITW, advancing the state of the art. The model and codes are available at https://github.com/THUDM/CogVLM.
PDF312December 15, 2024