mPLUG-DocOwl: Модульная мультимодальная большая языковая модель для понимания документов
mPLUG-DocOwl: Modularized Multimodal Large Language Model for Document Understanding
July 4, 2023
Авторы: Jiabo Ye, Anwen Hu, Haiyang Xu, Qinghao Ye, Ming Yan, Yuhao Dan, Chenlin Zhao, Guohai Xu, Chenliang Li, Junfeng Tian, Qian Qi, Ji Zhang, Fei Huang
cs.AI
Аннотация
Понимание документов относится к автоматическому извлечению, анализу и осмыслению информации из различных типов цифровых документов, таких как веб-страница. Существующие многомодальные большие языковые модели (MLLMs), включая mPLUG-Owl, продемонстрировали многообещающие возможности в задачах распознавания текста без использования OCR (оптического распознавания символов) на уровне нулевого сэмплинга, что указывает на их потенциал для понимания документов без OCR. Тем не менее, без обучения на данных из конкретной области эти модели склонны игнорировать тонкие особенности OCR, такие как сложные таблицы или большие блоки текста, которые важны для понимания документов без OCR. В данной статье мы предлагаем mPLUG-DocOwl, основанную на mPLUG-Owl, для понимания документов без OCR. В частности, мы сначала создаем набор данных для настройки инструкций, включающий широкий спектр задач понимания визуального текста. Затем мы усиливаем способность понимания документов без OCR, совместно обучая модель на данных, содержащих только текст, общих данных для задач зрения и языка, а также на наборе данных для настройки инструкций по документам, используя нашу унифицированную стратегию настройки инструкций. Мы также создаем набор для оценки понимания инструкций по документам без OCR LLMDoc, чтобы лучше сравнивать способности моделей в соблюдении инструкций и понимании документов. Экспериментальные результаты показывают, что наша модель превосходит существующие многомодальные модели, демонстрируя ее высокую способность к пониманию документов. Кроме того, без специальной тонкой настройки mPLUG-DocOwl хорошо обобщается на различные задачи. Наш код, модели, данные для обучения и набор для оценки доступны по адресу https://github.com/X-PLUG/mPLUG-DocOwl.
English
Document understanding refers to automatically extract, analyze and
comprehend information from various types of digital documents, such as a web
page. Existing Multi-model Large Language Models (MLLMs), including mPLUG-Owl,
have demonstrated promising zero-shot capabilities in shallow OCR-free text
recognition, indicating their potential for OCR-free document understanding.
Nevertheless, without in-domain training, these models tend to ignore
fine-grained OCR features, such as sophisticated tables or large blocks of
text, which are essential for OCR-free document understanding. In this paper,
we propose mPLUG-DocOwl based on mPLUG-Owl for OCR-free document understanding.
Specifically, we first construct a instruction tuning dataset featuring a wide
range of visual-text understanding tasks. Then, we strengthen the OCR-free
document understanding ability by jointly train the model on language-only,
general vision-and-language, and document instruction tuning dataset with our
unified instruction tuning strategy. We also build an OCR-free document
instruction understanding evaluation set LLMDoc to better compare models'
capabilities on instruct compliance and document understanding. Experimental
results show that our model outperforms existing multi-modal models,
demonstrating its strong ability of document understanding. Besides, without
specific fine-tuning, mPLUG-DocOwl generalizes well on various downstream
tasks. Our code, models, training data and evaluation set are available at
https://github.com/X-PLUG/mPLUG-DocOwl.