ChatPaper.aiChatPaper

Aprovechando las interfaces de usuario de páginas web para comprender visualmente textos ricos

Harnessing Webpage UIs for Text-Rich Visual Understanding

October 17, 2024
Autores: Junpeng Liu, Tianyue Ou, Yifan Song, Yuxiao Qu, Wai Lam, Chenyan Xiong, Wenhu Chen, Graham Neubig, Xiang Yue
cs.AI

Resumen

La comprensión visual rica en texto, la capacidad de procesar entornos donde se integra contenido textual denso con elementos visuales, es crucial para que los modelos de lenguaje grandes multimodales (MLLMs) interactúen de manera efectiva con entornos estructurados. Para mejorar esta capacidad, proponemos sintetizar instrucciones multimodales generales a partir de interfaces de usuario (UI) de páginas web utilizando modelos de lenguaje grandes basados en texto (LLMs). A pesar de carecer de entrada visual directa, los LLMs basados en texto pueden procesar representaciones de texto estructurado de los árboles de accesibilidad de las páginas web. Estas instrucciones se emparejan luego con capturas de pantalla de la UI para entrenar modelos multimodales. Presentamos MultiUI, un conjunto de datos que contiene 7.3 millones de ejemplos de 1 millón de sitios web, que abarcan diversas tareas multimodales y diseños de UI. Los modelos entrenados en MultiUI no solo sobresalen en tareas de UI web, logrando hasta un 48\% de mejora en VisualWebBench y un aumento del 19.1\% en la precisión de acciones en un conjunto de datos de agente web Mind2Web, sino que también generalizan sorprendentemente bien a tareas no relacionadas con UI web e incluso a dominios no relacionados con UI, como comprensión de documentos, OCR e interpretación de gráficos. Estos resultados resaltan la amplia aplicabilidad de los datos de UI web para avanzar en la comprensión visual rica en texto en diversos escenarios.
English
Text-rich visual understanding-the ability to process environments where dense textual content is integrated with visuals-is crucial for multimodal large language models (MLLMs) to interact effectively with structured environments. To enhance this capability, we propose synthesizing general multimodal instructions from webpage UIs using text-based large language models (LLMs). Despite lacking direct visual input, text-based LLMs are able to process structured text representations from webpage accessibility trees. These instructions are then paired with UI screenshots to train multimodal models. We introduce MultiUI, a dataset containing 7.3 million samples from 1 million websites, covering diverse multimodal tasks and UI layouts. Models trained on MultiUI not only excel in web UI tasks-achieving up to a 48\% improvement on VisualWebBench and a 19.1\% boost in action accuracy on a web agent dataset Mind2Web-but also generalize surprisingly well to non-web UI tasks and even to non-UI domains, such as document understanding, OCR, and chart interpretation. These results highlight the broad applicability of web UI data for advancing text-rich visual understanding across various scenarios.

Summary

AI-Generated Summary

PDF322November 16, 2024