ScreenAI : Un modèle vision-langage pour la compréhension des interfaces utilisateur et des infographies
ScreenAI: A Vision-Language Model for UI and Infographics Understanding
February 7, 2024
Auteurs: Gilles Baechler, Srinivas Sunkara, Maria Wang, Fedir Zubach, Hassan Mansoor, Vincent Etter, Victor Cărbune, Jason Lin, Jindong Chen, Abhanshu Sharma
cs.AI
Résumé
Les interfaces utilisateur (UI) à l'écran et les infographies, partageant un langage visuel et des principes de conception similaires, jouent un rôle important dans la communication humaine et l'interaction homme-machine. Nous présentons ScreenAI, un modèle vision-langage spécialisé dans la compréhension des UI et des infographies. Notre modèle améliore l'architecture PaLI grâce à la stratégie de patch flexible de pix2struct et est entraîné sur un mélange unique de jeux de données. Au cœur de ce mélange se trouve une nouvelle tâche d'annotation d'écran dans laquelle le modèle doit identifier le type et l'emplacement des éléments d'interface. Nous utilisons ces annotations textuelles pour décrire les écrans aux modèles de langage de grande taille (LLM) et générer automatiquement des jeux de données d'entraînement pour le question-réponse (QA), la navigation dans les UI et la synthèse à grande échelle. Nous menons des études d'ablation pour démontrer l'impact de ces choix de conception. Avec seulement 5 milliards de paramètres, ScreenAI établit de nouveaux records sur des tâches basées sur les UI et les infographies (Multi-page DocVQA, WebSRC, MoTIF et Widget Captioning), et obtient des performances inégalées sur d'autres (Chart QA, DocVQA et InfographicVQA) par rapport à des modèles de taille similaire. Enfin, nous publions trois nouveaux jeux de données : un axé sur la tâche d'annotation d'écran et deux autres centrés sur le question-réponse.
English
Screen user interfaces (UIs) and infographics, sharing similar visual
language and design principles, play important roles in human communication and
human-machine interaction. We introduce ScreenAI, a vision-language model that
specializes in UI and infographics understanding. Our model improves upon the
PaLI architecture with the flexible patching strategy of pix2struct and is
trained on a unique mixture of datasets. At the heart of this mixture is a
novel screen annotation task in which the model has to identify the type and
location of UI elements. We use these text annotations to describe screens to
Large Language Models and automatically generate question-answering (QA), UI
navigation, and summarization training datasets at scale. We run ablation
studies to demonstrate the impact of these design choices. At only 5B
parameters, ScreenAI achieves new state-of-the-artresults on UI- and
infographics-based tasks (Multi-page DocVQA, WebSRC, MoTIF and Widget
Captioning), and new best-in-class performance on others (Chart QA, DocVQA, and
InfographicVQA) compared to models of similar size. Finally, we release three
new datasets: one focused on the screen annotation task and two others focused
on question answering.