ScreenAI: Визуально-языковая модель для понимания пользовательских интерфейсов и инфографики
ScreenAI: A Vision-Language Model for UI and Infographics Understanding
February 7, 2024
Авторы: Gilles Baechler, Srinivas Sunkara, Maria Wang, Fedir Zubach, Hassan Mansoor, Vincent Etter, Victor Cărbune, Jason Lin, Jindong Chen, Abhanshu Sharma
cs.AI
Аннотация
Экранные пользовательские интерфейсы (UI) и инфографика, обладая схожим визуальным языком и принципами дизайна, играют важную роль в человеческом общении и взаимодействии человека с машиной. Мы представляем ScreenAI — модель обработки изображений и текста, специализирующуюся на понимании UI и инфографики. Наша модель улучшает архитектуру PaLI за счёт гибкой стратегии разбиения на фрагменты, используемой в pix2struct, и обучается на уникальной смеси наборов данных. Основой этой смеси является новая задача аннотирования экранов, в которой модель должна определить тип и расположение элементов UI. Мы используем эти текстовые аннотации для описания экранов большим языковым моделям (LLM) и автоматически генерируем масштабные наборы данных для обучения, включая вопросы и ответы (QA), навигацию по UI и задачи суммирования. Мы проводим исследования с исключением компонентов, чтобы продемонстрировать влияние этих решений. При объёме всего в 5 миллиардов параметров ScreenAI достигает новых наилучших результатов на задачах, связанных с UI и инфографикой (Multi-page DocVQA, WebSRC, MoTIF и Widget Captioning), а также демонстрирует лучшие в своём классе показатели на других задачах (Chart QA, DocVQA и InfographicVQA) по сравнению с моделями аналогичного размера. В заключение мы публикуем три новых набора данных: один сосредоточен на задаче аннотирования экранов, а два других — на вопросах и ответах.
English
Screen user interfaces (UIs) and infographics, sharing similar visual
language and design principles, play important roles in human communication and
human-machine interaction. We introduce ScreenAI, a vision-language model that
specializes in UI and infographics understanding. Our model improves upon the
PaLI architecture with the flexible patching strategy of pix2struct and is
trained on a unique mixture of datasets. At the heart of this mixture is a
novel screen annotation task in which the model has to identify the type and
location of UI elements. We use these text annotations to describe screens to
Large Language Models and automatically generate question-answering (QA), UI
navigation, and summarization training datasets at scale. We run ablation
studies to demonstrate the impact of these design choices. At only 5B
parameters, ScreenAI achieves new state-of-the-artresults on UI- and
infographics-based tasks (Multi-page DocVQA, WebSRC, MoTIF and Widget
Captioning), and new best-in-class performance on others (Chart QA, DocVQA, and
InfographicVQA) compared to models of similar size. Finally, we release three
new datasets: one focused on the screen annotation task and two others focused
on question answering.