mPLUG-DocOwl 1.5: Apprendimento Unificato della Struttura per la Comprensione di Documenti senza OCR

Abstract

Le informazioni strutturali sono cruciali per comprendere la semantica delle immagini ricche di testo, come documenti, tabelle e grafici. Gli attuali Modelli Multimodali di Linguaggio di Grande Dimensione (MLLMs) per la Comprensione Visiva dei Documenti sono dotati di capacità di riconoscimento del testo, ma mancano di abilità generali di comprensione strutturale per le immagini di documenti ricchi di testo. In questo lavoro, sottolineiamo l'importanza delle informazioni strutturali nella Comprensione Visiva dei Documenti e proponiamo l'Apprendimento Strutturale Unificato per migliorare le prestazioni degli MLLMs. Il nostro Apprendimento Strutturale Unificato comprende attività di parsing consapevole della struttura e attività di localizzazione del testo a più livelli attraverso 5 domini: documento, pagina web, tabella, grafico e immagine naturale. Per codificare meglio le informazioni strutturali, progettiamo un modulo vision-to-text semplice ed efficace chiamato H-Reducer, che non solo mantiene le informazioni di layout, ma riduce anche la lunghezza delle caratteristiche visive unendo patch orizzontalmente adiacenti attraverso la convoluzione, consentendo al LLM di comprendere immagini ad alta risoluzione in modo più efficiente. Inoltre, costruendo sequenze di testo consapevoli della struttura e coppie di testi e bounding box a più livelli per immagini ricche di testo disponibili pubblicamente, creiamo un set di training completo chiamato DocStruct4M per supportare l'apprendimento strutturale. Infine, costruiamo un piccolo ma di alta qualità dataset di tuning per il ragionamento chiamato DocReason25K per attivare la capacità di spiegazione dettagliata nel dominio dei documenti. Il nostro modello DocOwl 1.5 raggiunge prestazioni all'avanguardia su 10 benchmark di comprensione visiva dei documenti, migliorando le prestazioni SOTA degli MLLMs con un LLM da 7B di oltre 10 punti in 5/10 benchmark. I nostri codici, modelli e dataset sono disponibili pubblicamente su https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl1.5.

English

Structure information is critical for understanding the semantics of text-rich images, such as documents, tables, and charts. Existing Multimodal Large Language Models (MLLMs) for Visual Document Understanding are equipped with text recognition ability but lack general structure understanding abilities for text-rich document images. In this work, we emphasize the importance of structure information in Visual Document Understanding and propose the Unified Structure Learning to boost the performance of MLLMs. Our Unified Structure Learning comprises structure-aware parsing tasks and multi-grained text localization tasks across 5 domains: document, webpage, table, chart, and natural image. To better encode structure information, we design a simple and effective vision-to-text module H-Reducer, which can not only maintain the layout information but also reduce the length of visual features by merging horizontal adjacent patches through convolution, enabling the LLM to understand high-resolution images more efficiently. Furthermore, by constructing structure-aware text sequences and multi-grained pairs of texts and bounding boxes for publicly available text-rich images, we build a comprehensive training set DocStruct4M to support structure learning. Finally, we construct a small but high-quality reasoning tuning dataset DocReason25K to trigger the detailed explanation ability in the document domain. Our model DocOwl 1.5 achieves state-of-the-art performance on 10 visual document understanding benchmarks, improving the SOTA performance of MLLMs with a 7B LLM by more than 10 points in 5/10 benchmarks. Our codes, models, and datasets are publicly available at https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl1.5.

mPLUG-DocOwl 1.5: Apprendimento Unificato della Struttura per la Comprensione di Documenti senza OCR

mPLUG-DocOwl 1.5: Unified Structure Learning for OCR-free Document Understanding

Abstract

Support