CogAgent: Визуальная языковая модель для агентов графического интерфейса пользователя
CogAgent: A Visual Language Model for GUI Agents
December 14, 2023
Авторы: Wenyi Hong, Weihan Wang, Qingsong Lv, Jiazheng Xu, Wenmeng Yu, Junhui Ji, Yan Wang, Zihan Wang, Yuxiao Dong, Ming Ding, Jie Tang
cs.AI
Аннотация
Люди проводят огромное количество времени за цифровыми устройствами, взаимодействуя с графическими пользовательскими интерфейсами (GUI), такими как экраны компьютеров или смартфонов. Крупные языковые модели (LLM), такие как ChatGPT, могут помогать людям в задачах, например, в написании писем, но испытывают трудности с пониманием и взаимодействием с GUI, что ограничивает их потенциал для повышения уровня автоматизации. В этой статье мы представляем CogAgent, визуальную языковую модель (VLM) с 18 миллиардами параметров, специализирующуюся на понимании и навигации по GUI. Благодаря использованию как низкоразрешающих, так и высокоразрешающих кодировщиков изображений, CogAgent поддерживает ввод с разрешением 1120*1120, что позволяет ей распознавать мелкие элементы страницы и текст. Как универсальная визуальная языковая модель, CogAgent достигает наилучших результатов на пяти текстоориентированных и четырех общих бенчмарках для визуального вопросно-ответного анализа (VQA), включая VQAv2, OK-VQA, Text-VQA, ST-VQA, ChartQA, infoVQA, DocVQA, MM-Vet и POPE. CogAgent, использующая только скриншоты в качестве входных данных, превосходит методы на основе LLM, которые используют извлеченный HTML-текст, в задачах навигации по GUI на ПК и Android — Mind2Web и AITW, устанавливая новый стандарт в этой области. Модель и код доступны по адресу https://github.com/THUDM/CogVLM.
English
People are spending an enormous amount of time on digital devices through
graphical user interfaces (GUIs), e.g., computer or smartphone screens. Large
language models (LLMs) such as ChatGPT can assist people in tasks like writing
emails, but struggle to understand and interact with GUIs, thus limiting their
potential to increase automation levels. In this paper, we introduce CogAgent,
an 18-billion-parameter visual language model (VLM) specializing in GUI
understanding and navigation. By utilizing both low-resolution and
high-resolution image encoders, CogAgent supports input at a resolution of
1120*1120, enabling it to recognize tiny page elements and text. As a
generalist visual language model, CogAgent achieves the state of the art on
five text-rich and four general VQA benchmarks, including VQAv2, OK-VQA,
Text-VQA, ST-VQA, ChartQA, infoVQA, DocVQA, MM-Vet, and POPE. CogAgent, using
only screenshots as input, outperforms LLM-based methods that consume extracted
HTML text on both PC and Android GUI navigation tasks -- Mind2Web and AITW,
advancing the state of the art. The model and codes are available at
https://github.com/THUDM/CogVLM.