Exploiter les interfaces utilisateur de pages Web pour la compréhension visuelle riche en texte
Harnessing Webpage UIs for Text-Rich Visual Understanding
October 17, 2024
Auteurs: Junpeng Liu, Tianyue Ou, Yifan Song, Yuxiao Qu, Wai Lam, Chenyan Xiong, Wenhu Chen, Graham Neubig, Xiang Yue
cs.AI
Résumé
La compréhension visuelle riche en texte - la capacité de traiter des environnements où un contenu textuel dense est intégré à des éléments visuels - est cruciale pour les grands modèles de langage multimodaux (MLLM) afin d'interagir efficacement avec des environnements structurés. Pour améliorer cette capacité, nous proposons de synthétiser des instructions multimodales générales à partir des interfaces utilisateur de pages web en utilisant des grands modèles de langage basés sur du texte (LLMs). Malgré l'absence d'entrée visuelle directe, les LLMs basés sur du texte sont capables de traiter des représentations textuelles structurées à partir des arbres d'accessibilité des pages web. Ces instructions sont ensuite associées à des captures d'écran d'interfaces utilisateur pour entraîner des modèles multimodaux. Nous présentons MultiUI, un ensemble de données contenant 7,3 millions d'échantillons provenant de 1 million de sites web, couvrant diverses tâches multimodales et mises en page d'interfaces utilisateur. Les modèles entraînés sur MultiUI excellent non seulement dans les tâches d'interfaces utilisateur web - atteignant jusqu'à une amélioration de 48\% sur VisualWebBench et un gain de précision de 19,1\% sur un ensemble de données d'agent web Mind2Web - mais généralisent également de manière surprenante aux tâches d'interfaces utilisateur non web et même à des domaines non liés aux interfaces utilisateur, tels que la compréhension de documents, la ROC, et l'interprétation de graphiques. Ces résultats mettent en évidence la large applicabilité des données d'interfaces utilisateur web pour faire progresser la compréhension visuelle riche en texte dans divers scénarios.
English
Text-rich visual understanding-the ability to process environments where
dense textual content is integrated with visuals-is crucial for multimodal
large language models (MLLMs) to interact effectively with structured
environments. To enhance this capability, we propose synthesizing general
multimodal instructions from webpage UIs using text-based large language models
(LLMs). Despite lacking direct visual input, text-based LLMs are able to
process structured text representations from webpage accessibility trees. These
instructions are then paired with UI screenshots to train multimodal models. We
introduce MultiUI, a dataset containing 7.3 million samples from 1 million
websites, covering diverse multimodal tasks and UI layouts. Models trained on
MultiUI not only excel in web UI tasks-achieving up to a 48\% improvement on
VisualWebBench and a 19.1\% boost in action accuracy on a web agent dataset
Mind2Web-but also generalize surprisingly well to non-web UI tasks and even to
non-UI domains, such as document understanding, OCR, and chart interpretation.
These results highlight the broad applicability of web UI data for advancing
text-rich visual understanding across various scenarios.Summary
AI-Generated Summary