mPLUG-DocOwl 1.5: Apprendimento Unificato della Struttura per la Comprensione di Documenti senza OCR
mPLUG-DocOwl 1.5: Unified Structure Learning for OCR-free Document Understanding
March 19, 2024
Autori: Anwen Hu, Haiyang Xu, Jiabo Ye, Ming Yan, Liang Zhang, Bo Zhang, Chen Li, Ji Zhang, Qin Jin, Fei Huang, Jingren Zhou
cs.AI
Abstract
Le informazioni strutturali sono cruciali per comprendere la semantica delle immagini ricche di testo, come documenti, tabelle e grafici. Gli attuali Modelli Multimodali di Linguaggio di Grande Dimensione (MLLMs) per la Comprensione Visiva dei Documenti sono dotati di capacità di riconoscimento del testo, ma mancano di abilità generali di comprensione strutturale per le immagini di documenti ricchi di testo. In questo lavoro, sottolineiamo l'importanza delle informazioni strutturali nella Comprensione Visiva dei Documenti e proponiamo l'Apprendimento Strutturale Unificato per migliorare le prestazioni degli MLLMs. Il nostro Apprendimento Strutturale Unificato comprende attività di parsing consapevole della struttura e attività di localizzazione del testo a più livelli attraverso 5 domini: documento, pagina web, tabella, grafico e immagine naturale. Per codificare meglio le informazioni strutturali, progettiamo un modulo vision-to-text semplice ed efficace chiamato H-Reducer, che non solo mantiene le informazioni di layout, ma riduce anche la lunghezza delle caratteristiche visive unendo patch orizzontalmente adiacenti attraverso la convoluzione, consentendo al LLM di comprendere immagini ad alta risoluzione in modo più efficiente. Inoltre, costruendo sequenze di testo consapevoli della struttura e coppie di testi e bounding box a più livelli per immagini ricche di testo disponibili pubblicamente, creiamo un set di training completo chiamato DocStruct4M per supportare l'apprendimento strutturale. Infine, costruiamo un piccolo ma di alta qualità dataset di tuning per il ragionamento chiamato DocReason25K per attivare la capacità di spiegazione dettagliata nel dominio dei documenti. Il nostro modello DocOwl 1.5 raggiunge prestazioni all'avanguardia su 10 benchmark di comprensione visiva dei documenti, migliorando le prestazioni SOTA degli MLLMs con un LLM da 7B di oltre 10 punti in 5/10 benchmark. I nostri codici, modelli e dataset sono disponibili pubblicamente su https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl1.5.
English
Structure information is critical for understanding the semantics of
text-rich images, such as documents, tables, and charts. Existing Multimodal
Large Language Models (MLLMs) for Visual Document Understanding are equipped
with text recognition ability but lack general structure understanding
abilities for text-rich document images. In this work, we emphasize the
importance of structure information in Visual Document Understanding and
propose the Unified Structure Learning to boost the performance of MLLMs. Our
Unified Structure Learning comprises structure-aware parsing tasks and
multi-grained text localization tasks across 5 domains: document, webpage,
table, chart, and natural image. To better encode structure information, we
design a simple and effective vision-to-text module H-Reducer, which can not
only maintain the layout information but also reduce the length of visual
features by merging horizontal adjacent patches through convolution, enabling
the LLM to understand high-resolution images more efficiently. Furthermore, by
constructing structure-aware text sequences and multi-grained pairs of texts
and bounding boxes for publicly available text-rich images, we build a
comprehensive training set DocStruct4M to support structure learning. Finally,
we construct a small but high-quality reasoning tuning dataset DocReason25K to
trigger the detailed explanation ability in the document domain. Our model
DocOwl 1.5 achieves state-of-the-art performance on 10 visual document
understanding benchmarks, improving the SOTA performance of MLLMs with a 7B LLM
by more than 10 points in 5/10 benchmarks. Our codes, models, and datasets are
publicly available at
https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl1.5.