ChatPaper.aiChatPaper

mPLUG-DocOwl : Modèle de Langage Multimodal Modulaire pour la Compréhension de Documents

mPLUG-DocOwl: Modularized Multimodal Large Language Model for Document Understanding

July 4, 2023
Auteurs: Jiabo Ye, Anwen Hu, Haiyang Xu, Qinghao Ye, Ming Yan, Yuhao Dan, Chenlin Zhao, Guohai Xu, Chenliang Li, Junfeng Tian, Qian Qi, Ji Zhang, Fei Huang
cs.AI

Résumé

La compréhension de documents fait référence à l'extraction, l'analyse et la compréhension automatiques d'informations provenant de divers types de documents numériques, tels qu'une page web. Les modèles de langage multi-modaux de grande taille (MLLMs) existants, y compris mPLUG-Owl, ont démontré des capacités prometteuses en reconnaissance de texte sans OCR (zero-shot), indiquant leur potentiel pour la compréhension de documents sans OCR. Cependant, sans entraînement spécifique au domaine, ces modèles ont tendance à ignorer les caractéristiques OCR fines, telles que des tableaux complexes ou de grands blocs de texte, qui sont essentielles pour la compréhension de documents sans OCR. Dans cet article, nous proposons mPLUG-DocOwl, basé sur mPLUG-Owl, pour la compréhension de documents sans OCR. Plus précisément, nous construisons d'abord un ensemble de données d'ajustement d'instructions comportant une large gamme de tâches de compréhension visuelle et textuelle. Ensuite, nous renforçons la capacité de compréhension de documents sans OCR en entraînant conjointement le modèle sur des ensembles de données uniquement linguistiques, de vision et langage général, et d'ajustement d'instructions de documents avec notre stratégie unifiée d'ajustement d'instructions. Nous construisons également un ensemble d'évaluation de compréhension d'instructions de documents sans OCR, LLMDoc, pour mieux comparer les capacités des modèles en matière de conformité aux instructions et de compréhension de documents. Les résultats expérimentaux montrent que notre modèle surpasse les modèles multi-modaux existants, démontrant sa forte capacité de compréhension de documents. De plus, sans ajustement spécifique, mPLUG-DocOwl généralise bien sur diverses tâches en aval. Notre code, modèles, données d'entraînement et ensemble d'évaluation sont disponibles à l'adresse https://github.com/X-PLUG/mPLUG-DocOwl.
English
Document understanding refers to automatically extract, analyze and comprehend information from various types of digital documents, such as a web page. Existing Multi-model Large Language Models (MLLMs), including mPLUG-Owl, have demonstrated promising zero-shot capabilities in shallow OCR-free text recognition, indicating their potential for OCR-free document understanding. Nevertheless, without in-domain training, these models tend to ignore fine-grained OCR features, such as sophisticated tables or large blocks of text, which are essential for OCR-free document understanding. In this paper, we propose mPLUG-DocOwl based on mPLUG-Owl for OCR-free document understanding. Specifically, we first construct a instruction tuning dataset featuring a wide range of visual-text understanding tasks. Then, we strengthen the OCR-free document understanding ability by jointly train the model on language-only, general vision-and-language, and document instruction tuning dataset with our unified instruction tuning strategy. We also build an OCR-free document instruction understanding evaluation set LLMDoc to better compare models' capabilities on instruct compliance and document understanding. Experimental results show that our model outperforms existing multi-modal models, demonstrating its strong ability of document understanding. Besides, without specific fine-tuning, mPLUG-DocOwl generalizes well on various downstream tasks. Our code, models, training data and evaluation set are available at https://github.com/X-PLUG/mPLUG-DocOwl.
PDF141December 15, 2024