ChatPaper.aiChatPaper

ScreenAI : Un modèle vision-langage pour la compréhension des interfaces utilisateur et des infographies

ScreenAI: A Vision-Language Model for UI and Infographics Understanding

February 7, 2024
Auteurs: Gilles Baechler, Srinivas Sunkara, Maria Wang, Fedir Zubach, Hassan Mansoor, Vincent Etter, Victor Cărbune, Jason Lin, Jindong Chen, Abhanshu Sharma
cs.AI

Résumé

Les interfaces utilisateur (UI) à l'écran et les infographies, partageant un langage visuel et des principes de conception similaires, jouent un rôle important dans la communication humaine et l'interaction homme-machine. Nous présentons ScreenAI, un modèle vision-langage spécialisé dans la compréhension des UI et des infographies. Notre modèle améliore l'architecture PaLI grâce à la stratégie de patch flexible de pix2struct et est entraîné sur un mélange unique de jeux de données. Au cœur de ce mélange se trouve une nouvelle tâche d'annotation d'écran dans laquelle le modèle doit identifier le type et l'emplacement des éléments d'interface. Nous utilisons ces annotations textuelles pour décrire les écrans aux modèles de langage de grande taille (LLM) et générer automatiquement des jeux de données d'entraînement pour le question-réponse (QA), la navigation dans les UI et la synthèse à grande échelle. Nous menons des études d'ablation pour démontrer l'impact de ces choix de conception. Avec seulement 5 milliards de paramètres, ScreenAI établit de nouveaux records sur des tâches basées sur les UI et les infographies (Multi-page DocVQA, WebSRC, MoTIF et Widget Captioning), et obtient des performances inégalées sur d'autres (Chart QA, DocVQA et InfographicVQA) par rapport à des modèles de taille similaire. Enfin, nous publions trois nouveaux jeux de données : un axé sur la tâche d'annotation d'écran et deux autres centrés sur le question-réponse.
English
Screen user interfaces (UIs) and infographics, sharing similar visual language and design principles, play important roles in human communication and human-machine interaction. We introduce ScreenAI, a vision-language model that specializes in UI and infographics understanding. Our model improves upon the PaLI architecture with the flexible patching strategy of pix2struct and is trained on a unique mixture of datasets. At the heart of this mixture is a novel screen annotation task in which the model has to identify the type and location of UI elements. We use these text annotations to describe screens to Large Language Models and automatically generate question-answering (QA), UI navigation, and summarization training datasets at scale. We run ablation studies to demonstrate the impact of these design choices. At only 5B parameters, ScreenAI achieves new state-of-the-artresults on UI- and infographics-based tasks (Multi-page DocVQA, WebSRC, MoTIF and Widget Captioning), and new best-in-class performance on others (Chart QA, DocVQA, and InfographicVQA) compared to models of similar size. Finally, we release three new datasets: one focused on the screen annotation task and two others focused on question answering.
PDF448December 15, 2024