ChatPaper.aiChatPaper

ScreenAI: Un modelo de visión y lenguaje para la comprensión de interfaces de usuario e infografías

ScreenAI: A Vision-Language Model for UI and Infographics Understanding

February 7, 2024
Autores: Gilles Baechler, Srinivas Sunkara, Maria Wang, Fedir Zubach, Hassan Mansoor, Vincent Etter, Victor Cărbune, Jason Lin, Jindong Chen, Abhanshu Sharma
cs.AI

Resumen

Las interfaces de usuario (UI) en pantalla y las infografías, que comparten un lenguaje visual y principios de diseño similares, desempeñan un papel importante en la comunicación humana y en la interacción hombre-máquina. Presentamos ScreenAI, un modelo de visión y lenguaje especializado en la comprensión de interfaces de usuario e infografías. Nuestro modelo mejora la arquitectura PaLI con la estrategia flexible de parcheo de pix2struct y se entrena con una mezcla única de conjuntos de datos. En el núcleo de esta mezcla se encuentra una novedosa tarea de anotación de pantallas, en la que el modelo debe identificar el tipo y la ubicación de los elementos de la interfaz de usuario. Utilizamos estas anotaciones de texto para describir pantallas a modelos de lenguaje grandes (LLM) y generar automáticamente conjuntos de datos de entrenamiento a gran escala para tareas de preguntas y respuestas (QA), navegación en interfaces y resumen. Realizamos estudios de ablación para demostrar el impacto de estas decisiones de diseño. Con solo 5 mil millones de parámetros, ScreenAI logra nuevos resultados de vanguardia en tareas basadas en interfaces de usuario e infografías (Multi-page DocVQA, WebSRC, MoTIF y Widget Captioning), y un rendimiento líder en otras (Chart QA, DocVQA e InfographicVQA) en comparación con modelos de tamaño similar. Finalmente, publicamos tres nuevos conjuntos de datos: uno centrado en la tarea de anotación de pantallas y otros dos enfocados en preguntas y respuestas.
English
Screen user interfaces (UIs) and infographics, sharing similar visual language and design principles, play important roles in human communication and human-machine interaction. We introduce ScreenAI, a vision-language model that specializes in UI and infographics understanding. Our model improves upon the PaLI architecture with the flexible patching strategy of pix2struct and is trained on a unique mixture of datasets. At the heart of this mixture is a novel screen annotation task in which the model has to identify the type and location of UI elements. We use these text annotations to describe screens to Large Language Models and automatically generate question-answering (QA), UI navigation, and summarization training datasets at scale. We run ablation studies to demonstrate the impact of these design choices. At only 5B parameters, ScreenAI achieves new state-of-the-artresults on UI- and infographics-based tasks (Multi-page DocVQA, WebSRC, MoTIF and Widget Captioning), and new best-in-class performance on others (Chart QA, DocVQA, and InfographicVQA) compared to models of similar size. Finally, we release three new datasets: one focused on the screen annotation task and two others focused on question answering.
PDF448December 15, 2024