Sfruttare le interfacce utente delle pagine Web per la comprensione visuale di testi ricchi.

Abstract

La comprensione visiva ricca di testo, ovvero la capacità di elaborare ambienti in cui il contenuto testuale denso è integrato con elementi visivi, è fondamentale affinché i modelli di linguaggio multimodali di grandi dimensioni (MLLM) possano interagire in modo efficace con ambienti strutturati. Per potenziare questa capacità, proponiamo di sintetizzare istruzioni multimodali generali dalle interfacce utente delle pagine web utilizzando modelli di linguaggio di grandi dimensioni basati sul testo (LLM). Nonostante la mancanza di un input visivo diretto, i LLM basati sul testo sono in grado di elaborare rappresentazioni testuali strutturate dagli alberi di accessibilità delle pagine web. Queste istruzioni vengono poi accoppiate con screenshot delle interfacce utente per addestrare modelli multimodali. Presentiamo MultiUI, un dataset contenente 7,3 milioni di campioni da 1 milione di siti web, che copre diverse attività multimodali e layout delle interfacce utente. I modelli addestrati su MultiUI eccellono non solo nelle attività delle interfacce utente web, raggiungendo fino al 48% di miglioramento su VisualWebBench e un aumento del 19,1% nell'accuratezza delle azioni su un dataset di agenti web Mind2Web, ma si generalizzano sorprendentemente bene anche per attività non legate alle interfacce utente web e persino a domini non legati alle interfacce utente, come la comprensione dei documenti, l'OCR e l'interpretazione dei grafici. Questi risultati evidenziano l'ampia applicabilità dei dati delle interfacce utente web per far progredire la comprensione visiva ricca di testo in vari scenari.

English

Text-rich visual understanding-the ability to process environments where dense textual content is integrated with visuals-is crucial for multimodal large language models (MLLMs) to interact effectively with structured environments. To enhance this capability, we propose synthesizing general multimodal instructions from webpage UIs using text-based large language models (LLMs). Despite lacking direct visual input, text-based LLMs are able to process structured text representations from webpage accessibility trees. These instructions are then paired with UI screenshots to train multimodal models. We introduce MultiUI, a dataset containing 7.3 million samples from 1 million websites, covering diverse multimodal tasks and UI layouts. Models trained on MultiUI not only excel in web UI tasks-achieving up to a 48\% improvement on VisualWebBench and a 19.1\% boost in action accuracy on a web agent dataset Mind2Web-but also generalize surprisingly well to non-web UI tasks and even to non-UI domains, such as document understanding, OCR, and chart interpretation. These results highlight the broad applicability of web UI data for advancing text-rich visual understanding across various scenarios.

Sfruttare le interfacce utente delle pagine Web per la comprensione visuale di testi ricchi.

Harnessing Webpage UIs for Text-Rich Visual Understanding

Abstract

Summary

Support

Support