mPLUG-DocOwl 1.5: Geïntegreerd structuurleren voor OCR-vrij documentbegrip
mPLUG-DocOwl 1.5: Unified Structure Learning for OCR-free Document Understanding
March 19, 2024
Auteurs: Anwen Hu, Haiyang Xu, Jiabo Ye, Ming Yan, Liang Zhang, Bo Zhang, Chen Li, Ji Zhang, Qin Jin, Fei Huang, Jingren Zhou
cs.AI
Samenvatting
Structuurinformatie is cruciaal voor het begrijpen van de semantiek van tekstrijke afbeeldingen, zoals documenten, tabellen en grafieken. Bestaande Multimodale Large Language Models (MLLMs) voor Visueel Documentbegrip zijn uitgerust met tekstherkenningsvaardigheden, maar missen algemene structuurinterpretatievaardigheden voor tekstrijke documentafbeeldingen. In dit werk benadrukken we het belang van structuurinformatie in Visueel Documentbegrip en stellen we het Unified Structure Learning voor om de prestaties van MLLMs te verbeteren. Ons Unified Structure Learning omvat structuurbewuste parseertaken en multi-granulaire tekstlokalisatietaken over 5 domeinen: document, webpagina, tabel, grafiek en natuurlijke afbeelding. Om structuurinformatie beter te coderen, ontwerpen we een eenvoudige en effectieve vision-to-text module genaamd H-Reducer, die niet alleen de lay-outinformatie behoudt, maar ook de lengte van visuele kenmerken verkort door horizontaal aangrenzende patches samen te voegen via convolutie, waardoor de LLM hoogresolutie-afbeeldingen efficiënter kan begrijpen. Bovendien bouwen we door het construeren van structuurbewuste tekstreeksen en multi-granulaire paren van teksten en begrenzingsvakken voor publiek beschikbare tekstrijke afbeeldingen een uitgebreide trainingsset DocStruct4M om structuurleren te ondersteunen. Ten slotte construeren we een kleine maar hoogwaardige redeneerafstemmingsdataset DocReason25K om het gedetailleerde uitlegvermogen in het documentdomein te activeren. Ons model DocOwl 1.5 behaalt state-of-the-art prestaties op 10 visuele documentbegrip benchmarks, waarbij de SOTA-prestaties van MLLMs met een 7B LLM op 5/10 benchmarks met meer dan 10 punten worden verbeterd. Onze codes, modellen en datasets zijn publiekelijk beschikbaar op https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl1.5.
English
Structure information is critical for understanding the semantics of
text-rich images, such as documents, tables, and charts. Existing Multimodal
Large Language Models (MLLMs) for Visual Document Understanding are equipped
with text recognition ability but lack general structure understanding
abilities for text-rich document images. In this work, we emphasize the
importance of structure information in Visual Document Understanding and
propose the Unified Structure Learning to boost the performance of MLLMs. Our
Unified Structure Learning comprises structure-aware parsing tasks and
multi-grained text localization tasks across 5 domains: document, webpage,
table, chart, and natural image. To better encode structure information, we
design a simple and effective vision-to-text module H-Reducer, which can not
only maintain the layout information but also reduce the length of visual
features by merging horizontal adjacent patches through convolution, enabling
the LLM to understand high-resolution images more efficiently. Furthermore, by
constructing structure-aware text sequences and multi-grained pairs of texts
and bounding boxes for publicly available text-rich images, we build a
comprehensive training set DocStruct4M to support structure learning. Finally,
we construct a small but high-quality reasoning tuning dataset DocReason25K to
trigger the detailed explanation ability in the document domain. Our model
DocOwl 1.5 achieves state-of-the-art performance on 10 visual document
understanding benchmarks, improving the SOTA performance of MLLMs with a 7B LLM
by more than 10 points in 5/10 benchmarks. Our codes, models, and datasets are
publicly available at
https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl1.5.