Использование пользовательских интерфейсов веб-страниц для визуального понимания текста
Harnessing Webpage UIs for Text-Rich Visual Understanding
October 17, 2024
Авторы: Junpeng Liu, Tianyue Ou, Yifan Song, Yuxiao Qu, Wai Lam, Chenyan Xiong, Wenhu Chen, Graham Neubig, Xiang Yue
cs.AI
Аннотация
Понимание визуальной информации с богатым текстовым контентом - способность обрабатывать среды, где плотный текст интегрирован с визуальными элементами - является ключевой для мультимодальных крупных языковых моделей (MLLMs) для эффективного взаимодействия со структурированными средами. Для улучшения этой возможности мы предлагаем синтез общих мультимодальных инструкций из пользовательских интерфейсов веб-страниц с использованием крупных языковых моделей на основе текста (LLMs). Несмотря на отсутствие прямого визуального ввода, LLMs на основе текста способны обрабатывать структурированные текстовые представления из деревьев доступности веб-страниц. Эти инструкции затем сопоставляются с скриншотами пользовательского интерфейса для обучения мультимодальных моделей. Мы представляем MultiUI, набор данных, содержащий 7,3 миллиона образцов с 1 миллиона веб-сайтов, охватывающий разнообразные мультимодальные задачи и макеты пользовательского интерфейса. Модели, обученные на MultiUI, не только превосходят в задачах веб-интерфейса - достигая до 48% улучшения на VisualWebBench и увеличения точности действий на 19,1% на наборе данных веб-агента Mind2Web, - но также удивительно хорошо обобщаются на задачи вне веб-интерфейса и даже на области без интерфейса, такие как понимание документов, OCR и интерпретация графиков. Эти результаты подчеркивают широкие возможности применения данных веб-интерфейса для продвижения понимания визуальной информации с богатым текстовым контентом в различных сценариях.
English
Text-rich visual understanding-the ability to process environments where
dense textual content is integrated with visuals-is crucial for multimodal
large language models (MLLMs) to interact effectively with structured
environments. To enhance this capability, we propose synthesizing general
multimodal instructions from webpage UIs using text-based large language models
(LLMs). Despite lacking direct visual input, text-based LLMs are able to
process structured text representations from webpage accessibility trees. These
instructions are then paired with UI screenshots to train multimodal models. We
introduce MultiUI, a dataset containing 7.3 million samples from 1 million
websites, covering diverse multimodal tasks and UI layouts. Models trained on
MultiUI not only excel in web UI tasks-achieving up to a 48\% improvement on
VisualWebBench and a 19.1\% boost in action accuracy on a web agent dataset
Mind2Web-but also generalize surprisingly well to non-web UI tasks and even to
non-UI domains, such as document understanding, OCR, and chart interpretation.
These results highlight the broad applicability of web UI data for advancing
text-rich visual understanding across various scenarios.Summary
AI-Generated Summary