mPLUG-DocOwl 1.5: Единое обучение структуры для понимания документов без OCR
mPLUG-DocOwl 1.5: Unified Structure Learning for OCR-free Document Understanding
March 19, 2024
Авторы: Anwen Hu, Haiyang Xu, Jiabo Ye, Ming Yan, Liang Zhang, Bo Zhang, Chen Li, Ji Zhang, Qin Jin, Fei Huang, Jingren Zhou
cs.AI
Аннотация
Структурная информация критически важна для понимания семантики изображений, богатых текстом, таких как документы, таблицы и диаграммы. Существующие Мультимодальные Большие Языковые Модели (MLLMs) для Понимания Визуальных Документов обладают способностью к распознаванию текста, но лишены общих способностей понимания структуры для изображений документов, богатых текстом. В данной работе мы подчеркиваем важность структурной информации в Понимании Визуальных Документов и предлагаем Объединенное Обучение Структуре для повышения производительности MLLMs. Наше Объединенное Обучение Структуре включает в себя задачи структурно-осознанного разбора и задачи локализации текста различной степени детализации в 5 доменах: документ, веб-страница, таблица, диаграмма и естественное изображение. Для лучшего кодирования структурной информации мы разработали простой и эффективный модуль видение-текст H-Reducer, который может не только сохранять информацию о макете, но и сокращать длину визуальных характеристик путем объединения горизонтально смежных патчей через свертку, что позволяет LLM более эффективно понимать изображения высокого разрешения. Кроме того, создавая структурно-осознанные последовательности текста и многозернистые пары текстов и ограничивающих рамок для общедоступных изображений, богатых текстом, мы создаем обширный набор данных для обучения DocStruct4M для поддержки обучения структуре. Наконец, мы создаем небольшой, но высококачественный набор данных для настройки рассуждений DocReason25K для активации способности к детальному объяснению в домене документов. Наша модель DocOwl 1.5 достигает передовой производительности на 10 бенчмарках по пониманию визуальных документов, улучшая передовую производительность MLLMs с 7B LLM более чем на 10 пунктов в 5 из 10 бенчмарков. Наши коды, модели и наборы данных доступны по адресу https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl1.5.
English
Structure information is critical for understanding the semantics of
text-rich images, such as documents, tables, and charts. Existing Multimodal
Large Language Models (MLLMs) for Visual Document Understanding are equipped
with text recognition ability but lack general structure understanding
abilities for text-rich document images. In this work, we emphasize the
importance of structure information in Visual Document Understanding and
propose the Unified Structure Learning to boost the performance of MLLMs. Our
Unified Structure Learning comprises structure-aware parsing tasks and
multi-grained text localization tasks across 5 domains: document, webpage,
table, chart, and natural image. To better encode structure information, we
design a simple and effective vision-to-text module H-Reducer, which can not
only maintain the layout information but also reduce the length of visual
features by merging horizontal adjacent patches through convolution, enabling
the LLM to understand high-resolution images more efficiently. Furthermore, by
constructing structure-aware text sequences and multi-grained pairs of texts
and bounding boxes for publicly available text-rich images, we build a
comprehensive training set DocStruct4M to support structure learning. Finally,
we construct a small but high-quality reasoning tuning dataset DocReason25K to
trigger the detailed explanation ability in the document domain. Our model
DocOwl 1.5 achieves state-of-the-art performance on 10 visual document
understanding benchmarks, improving the SOTA performance of MLLMs with a 7B LLM
by more than 10 points in 5/10 benchmarks. Our codes, models, and datasets are
publicly available at
https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl1.5.