mPLUG-DocOwl: Modello di Linguaggio Multimodale Modulare per la Comprensione dei Documenti

Abstract

La comprensione dei documenti si riferisce all'estrazione, analisi e comprensione automatica delle informazioni da vari tipi di documenti digitali, come una pagina web. Gli attuali Modelli Linguistici Multimodali di Grande Scala (MLLMs), tra cui mPLUG-Owl, hanno dimostrato promettenti capacità zero-shot nel riconoscimento superficiale del testo senza OCR, indicando il loro potenziale per la comprensione dei documenti senza OCR. Tuttavia, senza un addestramento specifico nel dominio, questi modelli tendono a ignorare caratteristiche OCR dettagliate, come tabelle complesse o grandi blocchi di testo, essenziali per la comprensione dei documenti senza OCR. In questo articolo, proponiamo mPLUG-DocOwl basato su mPLUG-Owl per la comprensione dei documenti senza OCR. Nello specifico, costruiamo prima un dataset di regolazione delle istruzioni che include una vasta gamma di compiti di comprensione visivo-testuale. Poi, rafforziamo la capacità di comprensione dei documenti senza OCR addestrando congiuntamente il modello su dataset di solo linguaggio, visione e linguaggio generale, e regolazione delle istruzioni sui documenti con la nostra strategia unificata di regolazione delle istruzioni. Abbiamo anche creato un set di valutazione per la comprensione delle istruzioni sui documenti senza OCR, chiamato LLMDoc, per confrontare meglio le capacità dei modelli nel rispetto delle istruzioni e nella comprensione dei documenti. I risultati sperimentali mostrano che il nostro modello supera i modelli multimodali esistenti, dimostrando una forte capacità di comprensione dei documenti. Inoltre, senza un fine-tuning specifico, mPLUG-DocOwl si generalizza bene su vari compiti downstream. Il nostro codice, modelli, dati di addestramento e set di valutazione sono disponibili su https://github.com/X-PLUG/mPLUG-DocOwl.

English

Document understanding refers to automatically extract, analyze and comprehend information from various types of digital documents, such as a web page. Existing Multi-model Large Language Models (MLLMs), including mPLUG-Owl, have demonstrated promising zero-shot capabilities in shallow OCR-free text recognition, indicating their potential for OCR-free document understanding. Nevertheless, without in-domain training, these models tend to ignore fine-grained OCR features, such as sophisticated tables or large blocks of text, which are essential for OCR-free document understanding. In this paper, we propose mPLUG-DocOwl based on mPLUG-Owl for OCR-free document understanding. Specifically, we first construct a instruction tuning dataset featuring a wide range of visual-text understanding tasks. Then, we strengthen the OCR-free document understanding ability by jointly train the model on language-only, general vision-and-language, and document instruction tuning dataset with our unified instruction tuning strategy. We also build an OCR-free document instruction understanding evaluation set LLMDoc to better compare models' capabilities on instruct compliance and document understanding. Experimental results show that our model outperforms existing multi-modal models, demonstrating its strong ability of document understanding. Besides, without specific fine-tuning, mPLUG-DocOwl generalizes well on various downstream tasks. Our code, models, training data and evaluation set are available at https://github.com/X-PLUG/mPLUG-DocOwl.

mPLUG-DocOwl: Modello di Linguaggio Multimodale Modulare per la Comprensione dei Documenti

mPLUG-DocOwl: Modularized Multimodal Large Language Model for Document Understanding

Abstract

Support