CogAgent: Ein visuelles Sprachmodell für GUI-Agenten
CogAgent: A Visual Language Model for GUI Agents
December 14, 2023
Autoren: Wenyi Hong, Weihan Wang, Qingsong Lv, Jiazheng Xu, Wenmeng Yu, Junhui Ji, Yan Wang, Zihan Wang, Yuxiao Dong, Ming Ding, Jie Tang
cs.AI
Zusammenfassung
Menschen verbringen eine enorme Menge Zeit an digitalen Geräten über grafische Benutzeroberflächen (GUIs), wie beispielsweise Computer- oder Smartphone-Bildschirme. Große Sprachmodelle (LLMs) wie ChatGPT können Menschen bei Aufgaben wie dem Verfassen von E-Mails unterstützen, haben jedoch Schwierigkeiten, GUIs zu verstehen und mit ihnen zu interagieren, was ihr Potenzial zur Steigerung des Automatisierungsgrades einschränkt. In diesem Artikel stellen wir CogAgent vor, ein visuelles Sprachmodell (VLM) mit 18 Milliarden Parametern, das sich auf das Verständnis und die Navigation von GUIs spezialisiert hat. Durch die Verwendung sowohl von niedrigauflösenden als auch hochauflösenden Bildencodern unterstützt CogAgent Eingaben mit einer Auflösung von 1120*1120, wodurch es in der Lage ist, winzige Seitenelemente und Texte zu erkennen. Als allgemeines visuelles Sprachmodell erreicht CogAgent den Stand der Technik auf fünf textlastigen und vier allgemeinen VQA-Benchmarks, darunter VQAv2, OK-VQA, Text-VQA, ST-VQA, ChartQA, infoVQA, DocVQA, MM-Vet und POPE. CogAgent, das ausschließlich Screenshots als Eingabe verwendet, übertrifft LLM-basierte Methoden, die extrahierten HTML-Text verarbeiten, bei PC- und Android-GUI-Navigationsaufgaben – Mind2Web und AITW – und setzt damit neue Maßstäbe. Das Modell und die Codes sind unter https://github.com/THUDM/CogVLM verfügbar.
English
People are spending an enormous amount of time on digital devices through
graphical user interfaces (GUIs), e.g., computer or smartphone screens. Large
language models (LLMs) such as ChatGPT can assist people in tasks like writing
emails, but struggle to understand and interact with GUIs, thus limiting their
potential to increase automation levels. In this paper, we introduce CogAgent,
an 18-billion-parameter visual language model (VLM) specializing in GUI
understanding and navigation. By utilizing both low-resolution and
high-resolution image encoders, CogAgent supports input at a resolution of
1120*1120, enabling it to recognize tiny page elements and text. As a
generalist visual language model, CogAgent achieves the state of the art on
five text-rich and four general VQA benchmarks, including VQAv2, OK-VQA,
Text-VQA, ST-VQA, ChartQA, infoVQA, DocVQA, MM-Vet, and POPE. CogAgent, using
only screenshots as input, outperforms LLM-based methods that consume extracted
HTML text on both PC and Android GUI navigation tasks -- Mind2Web and AITW,
advancing the state of the art. The model and codes are available at
https://github.com/THUDM/CogVLM.