Aprovechando las interfaces de usuario de páginas web para comprender visualmente textos ricos
Harnessing Webpage UIs for Text-Rich Visual Understanding
October 17, 2024
Autores: Junpeng Liu, Tianyue Ou, Yifan Song, Yuxiao Qu, Wai Lam, Chenyan Xiong, Wenhu Chen, Graham Neubig, Xiang Yue
cs.AI
Resumen
La comprensión visual rica en texto, la capacidad de procesar entornos donde se integra contenido textual denso con elementos visuales, es crucial para que los modelos de lenguaje grandes multimodales (MLLMs) interactúen de manera efectiva con entornos estructurados. Para mejorar esta capacidad, proponemos sintetizar instrucciones multimodales generales a partir de interfaces de usuario (UI) de páginas web utilizando modelos de lenguaje grandes basados en texto (LLMs). A pesar de carecer de entrada visual directa, los LLMs basados en texto pueden procesar representaciones de texto estructurado de los árboles de accesibilidad de las páginas web. Estas instrucciones se emparejan luego con capturas de pantalla de la UI para entrenar modelos multimodales. Presentamos MultiUI, un conjunto de datos que contiene 7.3 millones de ejemplos de 1 millón de sitios web, que abarcan diversas tareas multimodales y diseños de UI. Los modelos entrenados en MultiUI no solo sobresalen en tareas de UI web, logrando hasta un 48\% de mejora en VisualWebBench y un aumento del 19.1\% en la precisión de acciones en un conjunto de datos de agente web Mind2Web, sino que también generalizan sorprendentemente bien a tareas no relacionadas con UI web e incluso a dominios no relacionados con UI, como comprensión de documentos, OCR e interpretación de gráficos. Estos resultados resaltan la amplia aplicabilidad de los datos de UI web para avanzar en la comprensión visual rica en texto en diversos escenarios.
English
Text-rich visual understanding-the ability to process environments where
dense textual content is integrated with visuals-is crucial for multimodal
large language models (MLLMs) to interact effectively with structured
environments. To enhance this capability, we propose synthesizing general
multimodal instructions from webpage UIs using text-based large language models
(LLMs). Despite lacking direct visual input, text-based LLMs are able to
process structured text representations from webpage accessibility trees. These
instructions are then paired with UI screenshots to train multimodal models. We
introduce MultiUI, a dataset containing 7.3 million samples from 1 million
websites, covering diverse multimodal tasks and UI layouts. Models trained on
MultiUI not only excel in web UI tasks-achieving up to a 48\% improvement on
VisualWebBench and a 19.1\% boost in action accuracy on a web agent dataset
Mind2Web-but also generalize surprisingly well to non-web UI tasks and even to
non-UI domains, such as document understanding, OCR, and chart interpretation.
These results highlight the broad applicability of web UI data for advancing
text-rich visual understanding across various scenarios.Summary
AI-Generated Summary