ChatPaper.aiChatPaper

ScreenAI: Ein Vision-Sprache-Modell zum Verständnis von Benutzeroberflächen und Infografiken

ScreenAI: A Vision-Language Model for UI and Infographics Understanding

February 7, 2024
Autoren: Gilles Baechler, Srinivas Sunkara, Maria Wang, Fedir Zubach, Hassan Mansoor, Vincent Etter, Victor Cărbune, Jason Lin, Jindong Chen, Abhanshu Sharma
cs.AI

Zusammenfassung

Bildschirmbenutzeroberflächen (UIs) und Infografiken, die eine ähnliche visuelle Sprache und Designprinzipien teilen, spielen eine wichtige Rolle in der menschlichen Kommunikation und der Mensch-Maschine-Interaktion. Wir stellen ScreenAI vor, ein Vision-Language-Modell, das sich auf das Verständnis von UIs und Infografiken spezialisiert. Unser Modell verbessert die PaLI-Architektur durch die flexible Patching-Strategie von pix2struct und wird auf einer einzigartigen Mischung von Datensätzen trainiert. Im Kern dieser Mischung liegt eine neuartige Bildschirmannotationsaufgabe, bei der das Modell den Typ und die Position von UI-Elementen identifizieren muss. Wir verwenden diese Textannotationen, um Bildschirme für Large Language Models zu beschreiben und automatisch Frage-Antwort- (QA), UI-Navigations- und Zusammenfassungstrainingsdatensätze in großem Maßstab zu generieren. Wir führen Ablationsstudien durch, um die Auswirkungen dieser Designentscheidungen zu demonstrieren. Mit nur 5 Milliarden Parametern erzielt ScreenAI neue State-of-the-Art-Ergebnisse bei UI- und Infografik-basierten Aufgaben (Multi-page DocVQA, WebSRC, MoTIF und Widget Captioning) und neue Best-in-Class-Leistungen bei anderen (Chart QA, DocVQA und InfographicVQA) im Vergleich zu Modellen ähnlicher Größe. Schließlich veröffentlichen wir drei neue Datensätze: einen, der sich auf die Bildschirmannotationsaufgabe konzentriert, und zwei weitere, die sich auf Frage-Antwort-Aufgaben fokussieren.
English
Screen user interfaces (UIs) and infographics, sharing similar visual language and design principles, play important roles in human communication and human-machine interaction. We introduce ScreenAI, a vision-language model that specializes in UI and infographics understanding. Our model improves upon the PaLI architecture with the flexible patching strategy of pix2struct and is trained on a unique mixture of datasets. At the heart of this mixture is a novel screen annotation task in which the model has to identify the type and location of UI elements. We use these text annotations to describe screens to Large Language Models and automatically generate question-answering (QA), UI navigation, and summarization training datasets at scale. We run ablation studies to demonstrate the impact of these design choices. At only 5B parameters, ScreenAI achieves new state-of-the-artresults on UI- and infographics-based tasks (Multi-page DocVQA, WebSRC, MoTIF and Widget Captioning), and new best-in-class performance on others (Chart QA, DocVQA, and InfographicVQA) compared to models of similar size. Finally, we release three new datasets: one focused on the screen annotation task and two others focused on question answering.
PDF448December 15, 2024