ChatPaper.aiChatPaper

Nutzung von Webseiten-Benutzeroberflächen für textreiche visuelle Verständnis

Harnessing Webpage UIs for Text-Rich Visual Understanding

October 17, 2024
Autoren: Junpeng Liu, Tianyue Ou, Yifan Song, Yuxiao Qu, Wai Lam, Chenyan Xiong, Wenhu Chen, Graham Neubig, Xiang Yue
cs.AI

Zusammenfassung

Textreiches visuelles Verständnis - die Fähigkeit, Umgebungen zu verarbeiten, in denen dichte Textinhalte mit visuellen Elementen integriert sind - ist entscheidend für multimodale große Sprachmodelle (MLLMs), um effektiv mit strukturierten Umgebungen zu interagieren. Zur Verbesserung dieser Fähigkeit schlagen wir vor, allgemeine multimodale Anweisungen aus Webseiten-Benutzeroberflächen unter Verwendung von textbasierten großen Sprachmodellen (LLMs) zu synthetisieren. Obwohl textbasierte LLMs keine direkte visuelle Eingabe haben, können sie strukturierte Textrepräsentationen aus Webseiten-Zugänglichkeitsbäumen verarbeiten. Diese Anweisungen werden dann mit UI-Bildschirmfotos gepaart, um multimodale Modelle zu trainieren. Wir stellen MultiUI vor, ein Datensatz mit 7,3 Millionen Beispielen von 1 Million Websites, der verschiedene multimodale Aufgaben und UI-Layouts abdeckt. Modelle, die auf MultiUI trainiert sind, übertreffen nicht nur in Web-UI-Aufgaben - mit einer Verbesserung von bis zu 48\% bei VisualWebBench und einer Steigerung der Handlungsrichtigkeit um 19,1\% bei einem Web-Agenten-Datensatz Mind2Web - sondern generalisieren auch überraschend gut auf nicht-webbasierte UI-Aufgaben und sogar auf nicht-UI-Bereiche wie Dokumentenverständnis, OCR und Diagramminterpretation. Diese Ergebnisse verdeutlichen die breite Anwendbarkeit von Web-UI-Daten zur Förderung des textreichen visuellen Verständnisses in verschiedenen Szenarien.
English
Text-rich visual understanding-the ability to process environments where dense textual content is integrated with visuals-is crucial for multimodal large language models (MLLMs) to interact effectively with structured environments. To enhance this capability, we propose synthesizing general multimodal instructions from webpage UIs using text-based large language models (LLMs). Despite lacking direct visual input, text-based LLMs are able to process structured text representations from webpage accessibility trees. These instructions are then paired with UI screenshots to train multimodal models. We introduce MultiUI, a dataset containing 7.3 million samples from 1 million websites, covering diverse multimodal tasks and UI layouts. Models trained on MultiUI not only excel in web UI tasks-achieving up to a 48\% improvement on VisualWebBench and a 19.1\% boost in action accuracy on a web agent dataset Mind2Web-but also generalize surprisingly well to non-web UI tasks and even to non-UI domains, such as document understanding, OCR, and chart interpretation. These results highlight the broad applicability of web UI data for advancing text-rich visual understanding across various scenarios.

Summary

AI-Generated Summary

PDF322November 16, 2024