Exploiter les interfaces utilisateur de pages Web pour la compréhension visuelle riche en texte

papers.abstract

La compréhension visuelle riche en texte - la capacité de traiter des environnements où un contenu textuel dense est intégré à des éléments visuels - est cruciale pour les grands modèles de langage multimodaux (MLLM) afin d'interagir efficacement avec des environnements structurés. Pour améliorer cette capacité, nous proposons de synthétiser des instructions multimodales générales à partir des interfaces utilisateur de pages web en utilisant des grands modèles de langage basés sur du texte (LLMs). Malgré l'absence d'entrée visuelle directe, les LLMs basés sur du texte sont capables de traiter des représentations textuelles structurées à partir des arbres d'accessibilité des pages web. Ces instructions sont ensuite associées à des captures d'écran d'interfaces utilisateur pour entraîner des modèles multimodaux. Nous présentons MultiUI, un ensemble de données contenant 7,3 millions d'échantillons provenant de 1 million de sites web, couvrant diverses tâches multimodales et mises en page d'interfaces utilisateur. Les modèles entraînés sur MultiUI excellent non seulement dans les tâches d'interfaces utilisateur web - atteignant jusqu'à une amélioration de 48\% sur VisualWebBench et un gain de précision de 19,1\% sur un ensemble de données d'agent web Mind2Web - mais généralisent également de manière surprenante aux tâches d'interfaces utilisateur non web et même à des domaines non liés aux interfaces utilisateur, tels que la compréhension de documents, la ROC, et l'interprétation de graphiques. Ces résultats mettent en évidence la large applicabilité des données d'interfaces utilisateur web pour faire progresser la compréhension visuelle riche en texte dans divers scénarios.

English

Text-rich visual understanding-the ability to process environments where dense textual content is integrated with visuals-is crucial for multimodal large language models (MLLMs) to interact effectively with structured environments. To enhance this capability, we propose synthesizing general multimodal instructions from webpage UIs using text-based large language models (LLMs). Despite lacking direct visual input, text-based LLMs are able to process structured text representations from webpage accessibility trees. These instructions are then paired with UI screenshots to train multimodal models. We introduce MultiUI, a dataset containing 7.3 million samples from 1 million websites, covering diverse multimodal tasks and UI layouts. Models trained on MultiUI not only excel in web UI tasks-achieving up to a 48\% improvement on VisualWebBench and a 19.1\% boost in action accuracy on a web agent dataset Mind2Web-but also generalize surprisingly well to non-web UI tasks and even to non-UI domains, such as document understanding, OCR, and chart interpretation. These results highlight the broad applicability of web UI data for advancing text-rich visual understanding across various scenarios.

Exploiter les interfaces utilisateur de pages Web pour la compréhension visuelle riche en texte

Harnessing Webpage UIs for Text-Rich Visual Understanding

papers.abstract

Support