mPLUG-DocOwl: Modelo de Lenguaje Multimodal Modularizado para la Comprensión de Documentos
mPLUG-DocOwl: Modularized Multimodal Large Language Model for Document Understanding
July 4, 2023
Autores: Jiabo Ye, Anwen Hu, Haiyang Xu, Qinghao Ye, Ming Yan, Yuhao Dan, Chenlin Zhao, Guohai Xu, Chenliang Li, Junfeng Tian, Qian Qi, Ji Zhang, Fei Huang
cs.AI
Resumen
La comprensión de documentos se refiere a la extracción, análisis y comprensión automática de información a partir de diversos tipos de documentos digitales, como una página web. Los modelos de lenguaje multimodal de gran escala (MLLMs) existentes, incluido mPLUG-Owl, han demostrado capacidades prometedoras en el reconocimiento de texto sin OCR (reconocimiento óptico de caracteres) en modo zero-shot, lo que indica su potencial para la comprensión de documentos sin OCR. Sin embargo, sin un entrenamiento específico en el dominio, estos modelos tienden a ignorar características detalladas de OCR, como tablas complejas o bloques extensos de texto, que son esenciales para la comprensión de documentos sin OCR. En este artículo, proponemos mPLUG-DocOwl, basado en mPLUG-Owl, para la comprensión de documentos sin OCR. Específicamente, primero construimos un conjunto de datos de ajuste por instrucciones que incluye una amplia gama de tareas de comprensión de texto visual. Luego, reforzamos la capacidad de comprensión de documentos sin OCR entrenando conjuntamente el modelo con datos de solo lenguaje, visión y lenguaje general, y un conjunto de datos de ajuste por instrucciones de documentos, utilizando nuestra estrategia unificada de ajuste por instrucciones. También creamos un conjunto de evaluación de comprensión de instrucciones de documentos sin OCR, llamado LLMDoc, para comparar mejor las capacidades de los modelos en el cumplimiento de instrucciones y la comprensión de documentos. Los resultados experimentales muestran que nuestro modelo supera a los modelos multimodales existentes, demostrando su fuerte capacidad de comprensión de documentos. Además, sin un ajuste fino específico, mPLUG-DocOwl se generaliza bien en diversas tareas posteriores. Nuestro código, modelos, datos de entrenamiento y conjunto de evaluación están disponibles en https://github.com/X-PLUG/mPLUG-DocOwl.
English
Document understanding refers to automatically extract, analyze and
comprehend information from various types of digital documents, such as a web
page. Existing Multi-model Large Language Models (MLLMs), including mPLUG-Owl,
have demonstrated promising zero-shot capabilities in shallow OCR-free text
recognition, indicating their potential for OCR-free document understanding.
Nevertheless, without in-domain training, these models tend to ignore
fine-grained OCR features, such as sophisticated tables or large blocks of
text, which are essential for OCR-free document understanding. In this paper,
we propose mPLUG-DocOwl based on mPLUG-Owl for OCR-free document understanding.
Specifically, we first construct a instruction tuning dataset featuring a wide
range of visual-text understanding tasks. Then, we strengthen the OCR-free
document understanding ability by jointly train the model on language-only,
general vision-and-language, and document instruction tuning dataset with our
unified instruction tuning strategy. We also build an OCR-free document
instruction understanding evaluation set LLMDoc to better compare models'
capabilities on instruct compliance and document understanding. Experimental
results show that our model outperforms existing multi-modal models,
demonstrating its strong ability of document understanding. Besides, without
specific fine-tuning, mPLUG-DocOwl generalizes well on various downstream
tasks. Our code, models, training data and evaluation set are available at
https://github.com/X-PLUG/mPLUG-DocOwl.