ChatPaper.aiChatPaper

CogAgent: Een Visueel Taalmodel voor GUI-Agenten

CogAgent: A Visual Language Model for GUI Agents

December 14, 2023
Auteurs: Wenyi Hong, Weihan Wang, Qingsong Lv, Jiazheng Xu, Wenmeng Yu, Junhui Ji, Yan Wang, Zihan Wang, Yuxiao Dong, Ming Ding, Jie Tang
cs.AI

Samenvatting

Mensen besteden een enorme hoeveelheid tijd aan digitale apparaten via grafische gebruikersinterfaces (GUIs), zoals computerschermen of smartphones. Grote taalmodellen (LLMs) zoals ChatGPT kunnen mensen helpen bij taken zoals het schrijven van e-mails, maar hebben moeite met het begrijpen en interactie hebben met GUIs, wat hun potentieel om automatisering te vergroten beperkt. In dit artikel introduceren we CogAgent, een visueel taalmodel (VLM) met 18 miljard parameters dat gespecialiseerd is in het begrijpen en navigeren van GUIs. Door zowel laagresolutie- als hoogresolutie-afbeeldingsencoders te gebruiken, ondersteunt CogAgent invoer met een resolutie van 1120*1120, waardoor het kleine pagina-elementen en tekst kan herkennen. Als een generalistisch visueel taalmodel behaalt CogAgent de state of the art op vijf tekstrijke en vier algemene VQA-benchmarks, waaronder VQAv2, OK-VQA, Text-VQA, ST-VQA, ChartQA, infoVQA, DocVQA, MM-Vet en POPE. CogAgent, dat alleen schermafbeeldingen als invoer gebruikt, presteert beter dan LLM-gebaseerde methoden die geëxtraheerde HTML-tekst verwerken bij zowel PC- als Android-GUI-navigatietaken – Mind2Web en AITW, en zet daarmee de state of the art verder. Het model en de code zijn beschikbaar op https://github.com/THUDM/CogVLM.
English
People are spending an enormous amount of time on digital devices through graphical user interfaces (GUIs), e.g., computer or smartphone screens. Large language models (LLMs) such as ChatGPT can assist people in tasks like writing emails, but struggle to understand and interact with GUIs, thus limiting their potential to increase automation levels. In this paper, we introduce CogAgent, an 18-billion-parameter visual language model (VLM) specializing in GUI understanding and navigation. By utilizing both low-resolution and high-resolution image encoders, CogAgent supports input at a resolution of 1120*1120, enabling it to recognize tiny page elements and text. As a generalist visual language model, CogAgent achieves the state of the art on five text-rich and four general VQA benchmarks, including VQAv2, OK-VQA, Text-VQA, ST-VQA, ChartQA, infoVQA, DocVQA, MM-Vet, and POPE. CogAgent, using only screenshots as input, outperforms LLM-based methods that consume extracted HTML text on both PC and Android GUI navigation tasks -- Mind2Web and AITW, advancing the state of the art. The model and codes are available at https://github.com/THUDM/CogVLM.
PDF312December 15, 2024