mPLUG-DocOwl 1.5 : Apprentissage unifié de la structure pour la compréhension de documents sans OCR
mPLUG-DocOwl 1.5: Unified Structure Learning for OCR-free Document Understanding
March 19, 2024
Auteurs: Anwen Hu, Haiyang Xu, Jiabo Ye, Ming Yan, Liang Zhang, Bo Zhang, Chen Li, Ji Zhang, Qin Jin, Fei Huang, Jingren Zhou
cs.AI
Résumé
L'information structurelle est cruciale pour comprendre la sémantique des images riches en texte, telles que les documents, les tableaux et les graphiques. Les modèles de langage multimodaux (MLLMs) existants pour la compréhension visuelle de documents sont dotés de capacités de reconnaissance de texte, mais manquent de compétences générales de compréhension structurelle pour les images de documents riches en texte. Dans ce travail, nous soulignons l'importance de l'information structurelle dans la compréhension visuelle de documents et proposons l'apprentissage unifié de la structure pour améliorer les performances des MLLMs. Notre apprentissage unifié de la structure comprend des tâches d'analyse structurelle et des tâches de localisation de texte à plusieurs niveaux de granularité, couvrant 5 domaines : document, page web, tableau, graphique et image naturelle. Pour mieux encoder l'information structurelle, nous concevons un module vision-texte simple et efficace, H-Reducer, qui permet non seulement de préserver les informations de mise en page, mais aussi de réduire la longueur des caractéristiques visuelles en fusionnant les patches adjacents horizontalement via la convolution, permettant ainsi au modèle de langage de comprendre plus efficacement les images haute résolution. De plus, en construisant des séquences de texte sensibles à la structure et des paires de texte et de boîtes englobantes à plusieurs niveaux de granularité pour des images riches en texte disponibles publiquement, nous créons un ensemble d'entraînement complet, DocStruct4M, pour soutenir l'apprentissage de la structure. Enfin, nous construisons un petit ensemble de données de réglage de raisonnement de haute qualité, DocReason25K, pour déclencher la capacité d'explication détaillée dans le domaine des documents. Notre modèle DocOwl 1.5 atteint des performances de pointe sur 10 benchmarks de compréhension visuelle de documents, améliorant les performances SOTA des MLLMs avec un modèle de langage de 7B de plus de 10 points sur 5/10 benchmarks. Nos codes, modèles et ensembles de données sont disponibles publiquement à l'adresse suivante : https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl1.5.
English
Structure information is critical for understanding the semantics of
text-rich images, such as documents, tables, and charts. Existing Multimodal
Large Language Models (MLLMs) for Visual Document Understanding are equipped
with text recognition ability but lack general structure understanding
abilities for text-rich document images. In this work, we emphasize the
importance of structure information in Visual Document Understanding and
propose the Unified Structure Learning to boost the performance of MLLMs. Our
Unified Structure Learning comprises structure-aware parsing tasks and
multi-grained text localization tasks across 5 domains: document, webpage,
table, chart, and natural image. To better encode structure information, we
design a simple and effective vision-to-text module H-Reducer, which can not
only maintain the layout information but also reduce the length of visual
features by merging horizontal adjacent patches through convolution, enabling
the LLM to understand high-resolution images more efficiently. Furthermore, by
constructing structure-aware text sequences and multi-grained pairs of texts
and bounding boxes for publicly available text-rich images, we build a
comprehensive training set DocStruct4M to support structure learning. Finally,
we construct a small but high-quality reasoning tuning dataset DocReason25K to
trigger the detailed explanation ability in the document domain. Our model
DocOwl 1.5 achieves state-of-the-art performance on 10 visual document
understanding benchmarks, improving the SOTA performance of MLLMs with a 7B LLM
by more than 10 points in 5/10 benchmarks. Our codes, models, and datasets are
publicly available at
https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl1.5.Summary
AI-Generated Summary