CogAgent: Un Modello Linguistico Visivo per Agenti GUI
CogAgent: A Visual Language Model for GUI Agents
December 14, 2023
Autori: Wenyi Hong, Weihan Wang, Qingsong Lv, Jiazheng Xu, Wenmeng Yu, Junhui Ji, Yan Wang, Zihan Wang, Yuxiao Dong, Ming Ding, Jie Tang
cs.AI
Abstract
Le persone trascorrono un'enorme quantità di tempo su dispositivi digitali attraverso interfacce grafiche (GUI), come schermi di computer o smartphone. I grandi modelli linguistici (LLM) come ChatGPT possono assistere le persone in compiti come la scrittura di email, ma faticano a comprendere e interagire con le GUI, limitando così il loro potenziale per aumentare i livelli di automazione. In questo articolo, presentiamo CogAgent, un modello linguistico visivo (VLM) da 18 miliardi di parametri specializzato nella comprensione e navigazione delle GUI. Utilizzando sia encoder di immagini a bassa risoluzione che ad alta risoluzione, CogAgent supporta input a una risoluzione di 1120*1120, consentendogli di riconoscere elementi di pagina e testo di piccole dimensioni. Come modello linguistico visivo generalista, CogAgent raggiunge lo stato dell'arte su cinque benchmark ricchi di testo e quattro benchmark generali di VQA, tra cui VQAv2, OK-VQA, Text-VQA, ST-VQA, ChartQA, infoVQA, DocVQA, MM-Vet e POPE. CogAgent, utilizzando solo screenshot come input, supera i metodi basati su LLM che consumano testo HTML estratto in compiti di navigazione GUI su PC e Android -- Mind2Web e AITW, avanzando lo stato dell'arte. Il modello e i codici sono disponibili su https://github.com/THUDM/CogVLM.
English
People are spending an enormous amount of time on digital devices through
graphical user interfaces (GUIs), e.g., computer or smartphone screens. Large
language models (LLMs) such as ChatGPT can assist people in tasks like writing
emails, but struggle to understand and interact with GUIs, thus limiting their
potential to increase automation levels. In this paper, we introduce CogAgent,
an 18-billion-parameter visual language model (VLM) specializing in GUI
understanding and navigation. By utilizing both low-resolution and
high-resolution image encoders, CogAgent supports input at a resolution of
1120*1120, enabling it to recognize tiny page elements and text. As a
generalist visual language model, CogAgent achieves the state of the art on
five text-rich and four general VQA benchmarks, including VQAv2, OK-VQA,
Text-VQA, ST-VQA, ChartQA, infoVQA, DocVQA, MM-Vet, and POPE. CogAgent, using
only screenshots as input, outperforms LLM-based methods that consume extracted
HTML text on both PC and Android GUI navigation tasks -- Mind2Web and AITW,
advancing the state of the art. The model and codes are available at
https://github.com/THUDM/CogVLM.