mPLUG-DocOwl 1.5: Aprendizaje Unificado de Estructuras para la Comprensión de Documentos sin OCR
mPLUG-DocOwl 1.5: Unified Structure Learning for OCR-free Document Understanding
March 19, 2024
Autores: Anwen Hu, Haiyang Xu, Jiabo Ye, Ming Yan, Liang Zhang, Bo Zhang, Chen Li, Ji Zhang, Qin Jin, Fei Huang, Jingren Zhou
cs.AI
Resumen
La información estructural es crucial para comprender la semántica de imágenes ricas en texto, como documentos, tablas y gráficos. Los Modelos de Lenguaje Multimodales (MLLMs) existentes para la Comprensión Visual de Documentos están equipados con capacidad de reconocimiento de texto, pero carecen de habilidades generales de comprensión estructural para imágenes de documentos ricos en texto. En este trabajo, enfatizamos la importancia de la información estructural en la Comprensión Visual de Documentos y proponemos el Aprendizaje Unificado de Estructuras para mejorar el rendimiento de los MLLMs. Nuestro Aprendizaje Unificado de Estructuras comprende tareas de análisis con conciencia estructural y tareas de localización de texto multigranular en 5 dominios: documento, página web, tabla, gráfico e imagen natural. Para codificar mejor la información estructural, diseñamos un módulo visión-a-texto simple y efectivo llamado H-Reducer, que no solo mantiene la información de diseño, sino que también reduce la longitud de las características visuales fusionando parches adyacentes horizontalmente mediante convolución, permitiendo que el LLM comprenda imágenes de alta resolución de manera más eficiente. Además, al construir secuencias de texto con conciencia estructural y pares multigranulares de textos y cuadros delimitadores para imágenes ricas en texto disponibles públicamente, creamos un conjunto de entrenamiento integral llamado DocStruct4M para apoyar el aprendizaje estructural. Finalmente, construimos un pequeño pero de alta calidad conjunto de datos de ajuste de razonamiento llamado DocReason25K para activar la capacidad de explicación detallada en el dominio de documentos. Nuestro modelo DocOwl 1.5 logra un rendimiento de vanguardia en 10 puntos de referencia de comprensión visual de documentos, mejorando el rendimiento SOTA de los MLLMs con un LLM de 7B en más de 10 puntos en 5/10 puntos de referencia. Nuestros códigos, modelos y conjuntos de datos están disponibles públicamente en https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl1.5.
English
Structure information is critical for understanding the semantics of
text-rich images, such as documents, tables, and charts. Existing Multimodal
Large Language Models (MLLMs) for Visual Document Understanding are equipped
with text recognition ability but lack general structure understanding
abilities for text-rich document images. In this work, we emphasize the
importance of structure information in Visual Document Understanding and
propose the Unified Structure Learning to boost the performance of MLLMs. Our
Unified Structure Learning comprises structure-aware parsing tasks and
multi-grained text localization tasks across 5 domains: document, webpage,
table, chart, and natural image. To better encode structure information, we
design a simple and effective vision-to-text module H-Reducer, which can not
only maintain the layout information but also reduce the length of visual
features by merging horizontal adjacent patches through convolution, enabling
the LLM to understand high-resolution images more efficiently. Furthermore, by
constructing structure-aware text sequences and multi-grained pairs of texts
and bounding boxes for publicly available text-rich images, we build a
comprehensive training set DocStruct4M to support structure learning. Finally,
we construct a small but high-quality reasoning tuning dataset DocReason25K to
trigger the detailed explanation ability in the document domain. Our model
DocOwl 1.5 achieves state-of-the-art performance on 10 visual document
understanding benchmarks, improving the SOTA performance of MLLMs with a 7B LLM
by more than 10 points in 5/10 benchmarks. Our codes, models, and datasets are
publicly available at
https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl1.5.Summary
AI-Generated Summary