mPLUG-DocOwl 1.5: Vereinheitlichtes Strukturlernen für OCR-freies Dokumentenverständnis
mPLUG-DocOwl 1.5: Unified Structure Learning for OCR-free Document Understanding
March 19, 2024
Autoren: Anwen Hu, Haiyang Xu, Jiabo Ye, Ming Yan, Liang Zhang, Bo Zhang, Chen Li, Ji Zhang, Qin Jin, Fei Huang, Jingren Zhou
cs.AI
Zusammenfassung
Die Strukturinformation ist entscheidend für das Verständnis der Semantik von bildreichen Texten wie Dokumenten, Tabellen und Diagrammen. Bestehende Multimodale Große Sprachmodelle (MLLMs) für die visuelle Dokumentverarbeitung verfügen über Texterkennungsfähigkeiten, aber es fehlen ihnen allgemeine Strukturverständnisfähigkeiten für textreiche Dokumentbilder. In dieser Arbeit betonen wir die Bedeutung von Strukturinformationen in der visuellen Dokumentverarbeitung und schlagen das Vereinheitlichte Strukturlernen vor, um die Leistung von MLLMs zu steigern. Unser Vereinheitlichtes Strukturlernen umfasst strukturbewusste Parsing-Aufgaben und mehrschichtige Textlokalisierungsaufgaben in 5 Bereichen: Dokument, Webseite, Tabelle, Diagramm und natürliche Bilder. Um Strukturinformationen besser zu codieren, entwerfen wir ein einfaches und effektives Vision-zu-Text-Modul H-Reducer, das nicht nur die Layoutinformationen beibehalten, sondern auch die Länge der visuellen Merkmale reduzieren kann, indem es horizontal benachbarte Patches durch Faltung fusioniert, was dem LLM ermöglicht, hochauflösende Bilder effizienter zu verstehen. Darüber hinaus, indem wir strukturbewusste Textsequenzen und mehrschichtige Text- und Begrenzungsrahmenpaare für öffentlich verfügbare textreiche Bilder konstruieren, erstellen wir einen umfassenden Trainingsdatensatz DocStruct4M zur Unterstützung des Strukturlernens. Schließlich erstellen wir einen kleinen, aber qualitativ hochwertigen Reasoning-Tuning-Datensatz DocReason25K, um die detaillierte Erklärungsfähigkeit im Dokumentenbereich auszulösen. Unser Modell DocOwl 1.5 erzielt eine Spitzenleistung auf 10 visuellen Dokumentverstehens-Benchmarks und verbessert die Spitzenleistung von MLLMs mit einem 7B LLM um mehr als 10 Punkte in 5 von 10 Benchmarks. Unsere Codes, Modelle und Datensätze sind öffentlich verfügbar unter https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl1.5.
English
Structure information is critical for understanding the semantics of
text-rich images, such as documents, tables, and charts. Existing Multimodal
Large Language Models (MLLMs) for Visual Document Understanding are equipped
with text recognition ability but lack general structure understanding
abilities for text-rich document images. In this work, we emphasize the
importance of structure information in Visual Document Understanding and
propose the Unified Structure Learning to boost the performance of MLLMs. Our
Unified Structure Learning comprises structure-aware parsing tasks and
multi-grained text localization tasks across 5 domains: document, webpage,
table, chart, and natural image. To better encode structure information, we
design a simple and effective vision-to-text module H-Reducer, which can not
only maintain the layout information but also reduce the length of visual
features by merging horizontal adjacent patches through convolution, enabling
the LLM to understand high-resolution images more efficiently. Furthermore, by
constructing structure-aware text sequences and multi-grained pairs of texts
and bounding boxes for publicly available text-rich images, we build a
comprehensive training set DocStruct4M to support structure learning. Finally,
we construct a small but high-quality reasoning tuning dataset DocReason25K to
trigger the detailed explanation ability in the document domain. Our model
DocOwl 1.5 achieves state-of-the-art performance on 10 visual document
understanding benchmarks, improving the SOTA performance of MLLMs with a 7B LLM
by more than 10 points in 5/10 benchmarks. Our codes, models, and datasets are
publicly available at
https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl1.5.Summary
AI-Generated Summary