ChatPaper.aiChatPaper

mPLUG-DocOwl: Modularisiertes multimodales großes Sprachmodell für das Verständnis von Dokumenten

mPLUG-DocOwl: Modularized Multimodal Large Language Model for Document Understanding

July 4, 2023
Autoren: Jiabo Ye, Anwen Hu, Haiyang Xu, Qinghao Ye, Ming Yan, Yuhao Dan, Chenlin Zhao, Guohai Xu, Chenliang Li, Junfeng Tian, Qian Qi, Ji Zhang, Fei Huang
cs.AI

Zusammenfassung

Dokumentverständnis bezieht sich auf die automatische Extraktion, Analyse und Interpretation von Informationen aus verschiedenen Arten digitaler Dokumente, wie beispielsweise einer Webseite. Bestehende multimodale Large Language Models (MLLMs), einschließlich mPLUG-Owl, haben vielversprechende Zero-Shot-Fähigkeiten in der oberflächlichen OCR-freien Texterkennung gezeigt, was ihr Potenzial für OCR-freies Dokumentverständnis unterstreicht. Dennoch neigen diese Modelle ohne domänenspezifisches Training dazu, feinkörnige OCR-Merkmale wie komplexe Tabellen oder große Textblöcke zu übersehen, die für OCR-freies Dokumentverständnis entscheidend sind. In diesem Artikel schlagen wir mPLUG-DocOwl basierend auf mPLUG-Owl für OCR-freies Dokumentverständnis vor. Konkret konstruieren wir zunächst einen Instruction-Tuning-Datensatz, der eine Vielzahl von visuell-textuellen Verständnisaufgaben umfasst. Anschließend stärken wir die Fähigkeit zum OCR-freien Dokumentverständnis, indem wir das Modell gemeinsam auf sprachlichen, allgemeinen visuell-sprachlichen und dokumentbezogenen Instruction-Tuning-Datensätzen mit unserer einheitlichen Instruction-Tuning-Strategie trainieren. Wir erstellen außerdem einen OCR-freien Evaluationssatz für das Dokumentverständnis, LLMDoc, um die Fähigkeiten der Modelle in Bezug auf Instruktionsbefolgung und Dokumentverständnis besser vergleichen zu können. Experimentelle Ergebnisse zeigen, dass unser Modell bestehende multimodale Modelle übertrifft und seine starke Fähigkeit zum Dokumentverständnis unter Beweis stellt. Darüber hinaus generalisiert mPLUG-DocOwl ohne spezifisches Fine-Tuning gut auf verschiedene Downstream-Aufgaben. Unser Code, Modelle, Trainingsdaten und Evaluationssatz sind unter https://github.com/X-PLUG/mPLUG-DocOwl verfügbar.
English
Document understanding refers to automatically extract, analyze and comprehend information from various types of digital documents, such as a web page. Existing Multi-model Large Language Models (MLLMs), including mPLUG-Owl, have demonstrated promising zero-shot capabilities in shallow OCR-free text recognition, indicating their potential for OCR-free document understanding. Nevertheless, without in-domain training, these models tend to ignore fine-grained OCR features, such as sophisticated tables or large blocks of text, which are essential for OCR-free document understanding. In this paper, we propose mPLUG-DocOwl based on mPLUG-Owl for OCR-free document understanding. Specifically, we first construct a instruction tuning dataset featuring a wide range of visual-text understanding tasks. Then, we strengthen the OCR-free document understanding ability by jointly train the model on language-only, general vision-and-language, and document instruction tuning dataset with our unified instruction tuning strategy. We also build an OCR-free document instruction understanding evaluation set LLMDoc to better compare models' capabilities on instruct compliance and document understanding. Experimental results show that our model outperforms existing multi-modal models, demonstrating its strong ability of document understanding. Besides, without specific fine-tuning, mPLUG-DocOwl generalizes well on various downstream tasks. Our code, models, training data and evaluation set are available at https://github.com/X-PLUG/mPLUG-DocOwl.
PDF141December 15, 2024