ScreenAI: Un Modello Visione-Linguaggio per la Comprensione di Interfacce Utente e Infografiche

Abstract

Le interfacce utente (UI) su schermo e le infografiche, condividendo un linguaggio visivo e principi di design simili, svolgono ruoli importanti nella comunicazione umana e nell'interazione uomo-macchina. Presentiamo ScreenAI, un modello visione-linguaggio specializzato nella comprensione di UI e infografiche. Il nostro modello migliora l'architettura PaLI con la strategia flessibile di patch di pix2struct ed è addestrato su una miscela unica di dataset. Al centro di questa miscela c'è un nuovo compito di annotazione dello schermo in cui il modello deve identificare il tipo e la posizione degli elementi UI. Utilizziamo queste annotazioni testuali per descrivere gli schermi ai Modelli Linguistici di Grande Dimensione e generare automaticamente dataset di addestramento per domande-risposte (QA), navigazione UI e riassunto su larga scala. Eseguiamo studi di ablazione per dimostrare l'impatto di queste scelte progettuali. Con soli 5 miliardi di parametri, ScreenAI raggiunge nuovi risultati all'avanguardia su task basati su UI e infografiche (Multi-page DocVQA, WebSRC, MoTIF e Widget Captioning) e nuove prestazioni migliori della categoria su altri (Chart QA, DocVQA e InfographicVQA) rispetto a modelli di dimensioni simili. Infine, rilasciamo tre nuovi dataset: uno focalizzato sul compito di annotazione dello schermo e altri due dedicati alle domande-risposte.

English

Screen user interfaces (UIs) and infographics, sharing similar visual language and design principles, play important roles in human communication and human-machine interaction. We introduce ScreenAI, a vision-language model that specializes in UI and infographics understanding. Our model improves upon the PaLI architecture with the flexible patching strategy of pix2struct and is trained on a unique mixture of datasets. At the heart of this mixture is a novel screen annotation task in which the model has to identify the type and location of UI elements. We use these text annotations to describe screens to Large Language Models and automatically generate question-answering (QA), UI navigation, and summarization training datasets at scale. We run ablation studies to demonstrate the impact of these design choices. At only 5B parameters, ScreenAI achieves new state-of-the-artresults on UI- and infographics-based tasks (Multi-page DocVQA, WebSRC, MoTIF and Widget Captioning), and new best-in-class performance on others (Chart QA, DocVQA, and InfographicVQA) compared to models of similar size. Finally, we release three new datasets: one focused on the screen annotation task and two others focused on question answering.

ScreenAI: Un Modello Visione-Linguaggio per la Comprensione di Interfacce Utente e Infografiche

ScreenAI: A Vision-Language Model for UI and Infographics Understanding

Abstract

Support