ChatPaper.aiChatPaper

ScreenAI: Um Modelo de Visão e Linguagem para Compreensão de Interfaces de Usuário e Infográficos

ScreenAI: A Vision-Language Model for UI and Infographics Understanding

February 7, 2024
Autores: Gilles Baechler, Srinivas Sunkara, Maria Wang, Fedir Zubach, Hassan Mansoor, Vincent Etter, Victor Cărbune, Jason Lin, Jindong Chen, Abhanshu Sharma
cs.AI

Resumo

Interfaces de usuário (UIs) de tela e infográficos, que compartilham uma linguagem visual e princípios de design semelhantes, desempenham papéis importantes na comunicação humana e na interação homem-máquina. Apresentamos o ScreenAI, um modelo de linguagem visual que se especializa no entendimento de UIs e infográficos. Nosso modelo aprimora a arquitetura PaLI com a estratégia flexível de segmentação do pix2struct e é treinado em uma mistura única de conjuntos de dados. No centro dessa mistura está uma nova tarefa de anotação de tela, na qual o modelo deve identificar o tipo e a localização dos elementos da UI. Utilizamos essas anotações de texto para descrever telas a Modelos de Linguagem de Grande Escala (LLMs) e gerar automaticamente conjuntos de dados de treinamento em escala para tarefas de questionamento e resposta (QA), navegação em UI e sumarização. Realizamos estudos de ablação para demonstrar o impacto dessas escolhas de design. Com apenas 5 bilhões de parâmetros, o ScreenAI alcança novos resultados de estado da arte em tarefas baseadas em UI e infográficos (Multi-page DocVQA, WebSRC, MoTIF e Widget Captioning) e um desempenho de classe superior em outras (Chart QA, DocVQA e InfographicVQA) em comparação com modelos de tamanho similar. Por fim, liberamos três novos conjuntos de dados: um focado na tarefa de anotação de tela e outros dois voltados para questionamento e resposta.
English
Screen user interfaces (UIs) and infographics, sharing similar visual language and design principles, play important roles in human communication and human-machine interaction. We introduce ScreenAI, a vision-language model that specializes in UI and infographics understanding. Our model improves upon the PaLI architecture with the flexible patching strategy of pix2struct and is trained on a unique mixture of datasets. At the heart of this mixture is a novel screen annotation task in which the model has to identify the type and location of UI elements. We use these text annotations to describe screens to Large Language Models and automatically generate question-answering (QA), UI navigation, and summarization training datasets at scale. We run ablation studies to demonstrate the impact of these design choices. At only 5B parameters, ScreenAI achieves new state-of-the-artresults on UI- and infographics-based tasks (Multi-page DocVQA, WebSRC, MoTIF and Widget Captioning), and new best-in-class performance on others (Chart QA, DocVQA, and InfographicVQA) compared to models of similar size. Finally, we release three new datasets: one focused on the screen annotation task and two others focused on question answering.
PDF448February 7, 2026