mPLUG-DocOwl 1.5: Vereinheitlichtes Strukturlernen für OCR-freies DokumentenverständnismPLUG-DocOwl 1.5: Unified Structure Learning for OCR-free Document
Understanding
Die Strukturinformation ist entscheidend für das Verständnis der Semantik von bildreichen Texten wie Dokumenten, Tabellen und Diagrammen. Bestehende Multimodale Große Sprachmodelle (MLLMs) für die visuelle Dokumentverarbeitung verfügen über Texterkennungsfähigkeiten, aber es fehlen ihnen allgemeine Strukturverständnisfähigkeiten für textreiche Dokumentbilder. In dieser Arbeit betonen wir die Bedeutung von Strukturinformationen in der visuellen Dokumentverarbeitung und schlagen das Vereinheitlichte Strukturlernen vor, um die Leistung von MLLMs zu steigern. Unser Vereinheitlichtes Strukturlernen umfasst strukturbewusste Parsing-Aufgaben und mehrschichtige Textlokalisierungsaufgaben in 5 Bereichen: Dokument, Webseite, Tabelle, Diagramm und natürliche Bilder. Um Strukturinformationen besser zu codieren, entwerfen wir ein einfaches und effektives Vision-zu-Text-Modul H-Reducer, das nicht nur die Layoutinformationen beibehalten, sondern auch die Länge der visuellen Merkmale reduzieren kann, indem es horizontal benachbarte Patches durch Faltung fusioniert, was dem LLM ermöglicht, hochauflösende Bilder effizienter zu verstehen. Darüber hinaus, indem wir strukturbewusste Textsequenzen und mehrschichtige Text- und Begrenzungsrahmenpaare für öffentlich verfügbare textreiche Bilder konstruieren, erstellen wir einen umfassenden Trainingsdatensatz DocStruct4M zur Unterstützung des Strukturlernens. Schließlich erstellen wir einen kleinen, aber qualitativ hochwertigen Reasoning-Tuning-Datensatz DocReason25K, um die detaillierte Erklärungsfähigkeit im Dokumentenbereich auszulösen. Unser Modell DocOwl 1.5 erzielt eine Spitzenleistung auf 10 visuellen Dokumentverstehens-Benchmarks und verbessert die Spitzenleistung von MLLMs mit einem 7B LLM um mehr als 10 Punkte in 5 von 10 Benchmarks. Unsere Codes, Modelle und Datensätze sind öffentlich verfügbar unter https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl1.5.