Sfruttare le interfacce utente delle pagine Web per la comprensione visuale di testi ricchi.
Harnessing Webpage UIs for Text-Rich Visual Understanding
October 17, 2024
Autori: Junpeng Liu, Tianyue Ou, Yifan Song, Yuxiao Qu, Wai Lam, Chenyan Xiong, Wenhu Chen, Graham Neubig, Xiang Yue
cs.AI
Abstract
La comprensione visiva ricca di testo, ovvero la capacità di elaborare ambienti in cui il contenuto testuale denso è integrato con elementi visivi, è fondamentale affinché i modelli di linguaggio multimodali di grandi dimensioni (MLLM) possano interagire in modo efficace con ambienti strutturati. Per potenziare questa capacità, proponiamo di sintetizzare istruzioni multimodali generali dalle interfacce utente delle pagine web utilizzando modelli di linguaggio di grandi dimensioni basati sul testo (LLM). Nonostante la mancanza di un input visivo diretto, i LLM basati sul testo sono in grado di elaborare rappresentazioni testuali strutturate dagli alberi di accessibilità delle pagine web. Queste istruzioni vengono poi accoppiate con screenshot delle interfacce utente per addestrare modelli multimodali. Presentiamo MultiUI, un dataset contenente 7,3 milioni di campioni da 1 milione di siti web, che copre diverse attività multimodali e layout delle interfacce utente. I modelli addestrati su MultiUI eccellono non solo nelle attività delle interfacce utente web, raggiungendo fino al 48% di miglioramento su VisualWebBench e un aumento del 19,1% nell'accuratezza delle azioni su un dataset di agenti web Mind2Web, ma si generalizzano sorprendentemente bene anche per attività non legate alle interfacce utente web e persino a domini non legati alle interfacce utente, come la comprensione dei documenti, l'OCR e l'interpretazione dei grafici. Questi risultati evidenziano l'ampia applicabilità dei dati delle interfacce utente web per far progredire la comprensione visiva ricca di testo in vari scenari.
English
Text-rich visual understanding-the ability to process environments where
dense textual content is integrated with visuals-is crucial for multimodal
large language models (MLLMs) to interact effectively with structured
environments. To enhance this capability, we propose synthesizing general
multimodal instructions from webpage UIs using text-based large language models
(LLMs). Despite lacking direct visual input, text-based LLMs are able to
process structured text representations from webpage accessibility trees. These
instructions are then paired with UI screenshots to train multimodal models. We
introduce MultiUI, a dataset containing 7.3 million samples from 1 million
websites, covering diverse multimodal tasks and UI layouts. Models trained on
MultiUI not only excel in web UI tasks-achieving up to a 48\% improvement on
VisualWebBench and a 19.1\% boost in action accuracy on a web agent dataset
Mind2Web-but also generalize surprisingly well to non-web UI tasks and even to
non-UI domains, such as document understanding, OCR, and chart interpretation.
These results highlight the broad applicability of web UI data for advancing
text-rich visual understanding across various scenarios.Summary
AI-Generated Summary