mPLUG-DocOwl: Modelo de Linguagem Multimodal Modularizado para Compreensão de Documentos
mPLUG-DocOwl: Modularized Multimodal Large Language Model for Document Understanding
July 4, 2023
Autores: Jiabo Ye, Anwen Hu, Haiyang Xu, Qinghao Ye, Ming Yan, Yuhao Dan, Chenlin Zhao, Guohai Xu, Chenliang Li, Junfeng Tian, Qian Qi, Ji Zhang, Fei Huang
cs.AI
Resumo
A compreensão de documentos refere-se à extração, análise e interpretação automática de informações de diversos tipos de documentos digitais, como uma página da web. Os modelos de linguagem multimodal de grande escala (MLLMs) existentes, incluindo o mPLUG-Owl, demonstraram capacidades promissoras de reconhecimento de texto sem OCR (zero-shot) em tarefas superficiais, indicando seu potencial para a compreensão de documentos sem OCR. No entanto, sem treinamento específico no domínio, esses modelos tendem a ignorar características detalhadas do OCR, como tabelas complexas ou grandes blocos de texto, que são essenciais para a compreensão de documentos sem OCR. Neste artigo, propomos o mPLUG-DocOwl, baseado no mPLUG-Owl, para a compreensão de documentos sem OCR. Especificamente, primeiro construímos um conjunto de dados de ajuste fino de instruções que abrange uma variedade de tarefas de compreensão de texto visual. Em seguida, reforçamos a capacidade de compreensão de documentos sem OCR ao treinar o modelo conjuntamente em dados de ajuste fino de linguagem pura, visão e linguagem geral, e documentos com nossa estratégia unificada de ajuste fino de instruções. Também construímos um conjunto de avaliação de compreensão de instruções de documentos sem OCR, chamado LLMDoc, para comparar melhor as capacidades dos modelos em conformidade com instruções e compreensão de documentos. Os resultados experimentais mostram que nosso modelo supera os modelos multimodais existentes, demonstrando sua forte capacidade de compreensão de documentos. Além disso, sem ajuste fino específico, o mPLUG-DocOwl generaliza bem em várias tarefas de downstream. Nosso código, modelos, dados de treinamento e conjunto de avaliação estão disponíveis em https://github.com/X-PLUG/mPLUG-DocOwl.
English
Document understanding refers to automatically extract, analyze and
comprehend information from various types of digital documents, such as a web
page. Existing Multi-model Large Language Models (MLLMs), including mPLUG-Owl,
have demonstrated promising zero-shot capabilities in shallow OCR-free text
recognition, indicating their potential for OCR-free document understanding.
Nevertheless, without in-domain training, these models tend to ignore
fine-grained OCR features, such as sophisticated tables or large blocks of
text, which are essential for OCR-free document understanding. In this paper,
we propose mPLUG-DocOwl based on mPLUG-Owl for OCR-free document understanding.
Specifically, we first construct a instruction tuning dataset featuring a wide
range of visual-text understanding tasks. Then, we strengthen the OCR-free
document understanding ability by jointly train the model on language-only,
general vision-and-language, and document instruction tuning dataset with our
unified instruction tuning strategy. We also build an OCR-free document
instruction understanding evaluation set LLMDoc to better compare models'
capabilities on instruct compliance and document understanding. Experimental
results show that our model outperforms existing multi-modal models,
demonstrating its strong ability of document understanding. Besides, without
specific fine-tuning, mPLUG-DocOwl generalizes well on various downstream
tasks. Our code, models, training data and evaluation set are available at
https://github.com/X-PLUG/mPLUG-DocOwl.