Explorando Interfaces de Usuário de Páginas Web para Compreensão Visual de Textos Rica
Harnessing Webpage UIs for Text-Rich Visual Understanding
October 17, 2024
Autores: Junpeng Liu, Tianyue Ou, Yifan Song, Yuxiao Qu, Wai Lam, Chenyan Xiong, Wenhu Chen, Graham Neubig, Xiang Yue
cs.AI
Resumo
A compreensão visual rica em texto - a capacidade de processar ambientes nos quais conteúdo textual denso é integrado com elementos visuais - é crucial para modelos de linguagem grandes multimodais (MLLMs) interagirem de forma eficaz com ambientes estruturados. Para aprimorar essa capacidade, propomos a síntese de instruções multimodais gerais a partir de interfaces de usuário de páginas da web usando modelos de linguagem grandes baseados em texto (LLMs). Apesar da falta de entrada visual direta, os LLMs baseados em texto são capazes de processar representações textuais estruturadas das árvores de acessibilidade das páginas da web. Essas instruções são então combinadas com capturas de tela das interfaces de usuário para treinar modelos multimodais. Apresentamos o MultiUI, um conjunto de dados contendo 7,3 milhões de amostras de 1 milhão de sites, abrangendo diversas tarefas multimodais e layouts de interfaces de usuário. Os modelos treinados no MultiUI não apenas se destacam em tarefas de interface de usuário da web - alcançando até 48% de melhoria no VisualWebBench e um aumento de 19,1% na precisão de ação em um conjunto de dados de agente da web Mind2Web - mas também generalizam surpreendentemente bem para tarefas não relacionadas à interface de usuário da web e até mesmo para domínios não relacionados à interface de usuário, como compreensão de documentos, OCR e interpretação de gráficos. Esses resultados destacam a ampla aplicabilidade de dados de interface de usuário da web para avançar a compreensão visual rica em texto em diversos cenários.
English
Text-rich visual understanding-the ability to process environments where
dense textual content is integrated with visuals-is crucial for multimodal
large language models (MLLMs) to interact effectively with structured
environments. To enhance this capability, we propose synthesizing general
multimodal instructions from webpage UIs using text-based large language models
(LLMs). Despite lacking direct visual input, text-based LLMs are able to
process structured text representations from webpage accessibility trees. These
instructions are then paired with UI screenshots to train multimodal models. We
introduce MultiUI, a dataset containing 7.3 million samples from 1 million
websites, covering diverse multimodal tasks and UI layouts. Models trained on
MultiUI not only excel in web UI tasks-achieving up to a 48\% improvement on
VisualWebBench and a 19.1\% boost in action accuracy on a web agent dataset
Mind2Web-but also generalize surprisingly well to non-web UI tasks and even to
non-UI domains, such as document understanding, OCR, and chart interpretation.
These results highlight the broad applicability of web UI data for advancing
text-rich visual understanding across various scenarios.Summary
AI-Generated Summary