mPLUG-DocOwl: Modello di Linguaggio Multimodale Modulare per la Comprensione dei Documenti
mPLUG-DocOwl: Modularized Multimodal Large Language Model for Document Understanding
July 4, 2023
Autori: Jiabo Ye, Anwen Hu, Haiyang Xu, Qinghao Ye, Ming Yan, Yuhao Dan, Chenlin Zhao, Guohai Xu, Chenliang Li, Junfeng Tian, Qian Qi, Ji Zhang, Fei Huang
cs.AI
Abstract
La comprensione dei documenti si riferisce all'estrazione, analisi e comprensione automatica delle informazioni da vari tipi di documenti digitali, come una pagina web. Gli attuali Modelli Linguistici Multimodali di Grande Scala (MLLMs), tra cui mPLUG-Owl, hanno dimostrato promettenti capacità zero-shot nel riconoscimento superficiale del testo senza OCR, indicando il loro potenziale per la comprensione dei documenti senza OCR. Tuttavia, senza un addestramento specifico nel dominio, questi modelli tendono a ignorare caratteristiche OCR dettagliate, come tabelle complesse o grandi blocchi di testo, essenziali per la comprensione dei documenti senza OCR. In questo articolo, proponiamo mPLUG-DocOwl basato su mPLUG-Owl per la comprensione dei documenti senza OCR. Nello specifico, costruiamo prima un dataset di regolazione delle istruzioni che include una vasta gamma di compiti di comprensione visivo-testuale. Poi, rafforziamo la capacità di comprensione dei documenti senza OCR addestrando congiuntamente il modello su dataset di solo linguaggio, visione e linguaggio generale, e regolazione delle istruzioni sui documenti con la nostra strategia unificata di regolazione delle istruzioni. Abbiamo anche creato un set di valutazione per la comprensione delle istruzioni sui documenti senza OCR, chiamato LLMDoc, per confrontare meglio le capacità dei modelli nel rispetto delle istruzioni e nella comprensione dei documenti. I risultati sperimentali mostrano che il nostro modello supera i modelli multimodali esistenti, dimostrando una forte capacità di comprensione dei documenti. Inoltre, senza un fine-tuning specifico, mPLUG-DocOwl si generalizza bene su vari compiti downstream. Il nostro codice, modelli, dati di addestramento e set di valutazione sono disponibili su https://github.com/X-PLUG/mPLUG-DocOwl.
English
Document understanding refers to automatically extract, analyze and
comprehend information from various types of digital documents, such as a web
page. Existing Multi-model Large Language Models (MLLMs), including mPLUG-Owl,
have demonstrated promising zero-shot capabilities in shallow OCR-free text
recognition, indicating their potential for OCR-free document understanding.
Nevertheless, without in-domain training, these models tend to ignore
fine-grained OCR features, such as sophisticated tables or large blocks of
text, which are essential for OCR-free document understanding. In this paper,
we propose mPLUG-DocOwl based on mPLUG-Owl for OCR-free document understanding.
Specifically, we first construct a instruction tuning dataset featuring a wide
range of visual-text understanding tasks. Then, we strengthen the OCR-free
document understanding ability by jointly train the model on language-only,
general vision-and-language, and document instruction tuning dataset with our
unified instruction tuning strategy. We also build an OCR-free document
instruction understanding evaluation set LLMDoc to better compare models'
capabilities on instruct compliance and document understanding. Experimental
results show that our model outperforms existing multi-modal models,
demonstrating its strong ability of document understanding. Besides, without
specific fine-tuning, mPLUG-DocOwl generalizes well on various downstream
tasks. Our code, models, training data and evaluation set are available at
https://github.com/X-PLUG/mPLUG-DocOwl.