ChatPaper.aiChatPaper

mPLUG-DocOwl 1.5: Aprendizado de Estrutura Unificado para Compreensão de Documentos sem OCR

mPLUG-DocOwl 1.5: Unified Structure Learning for OCR-free Document Understanding

March 19, 2024
Autores: Anwen Hu, Haiyang Xu, Jiabo Ye, Ming Yan, Liang Zhang, Bo Zhang, Chen Li, Ji Zhang, Qin Jin, Fei Huang, Jingren Zhou
cs.AI

Resumo

A informação estrutural é crucial para compreender a semântica de imagens ricas em texto, como documentos, tabelas e gráficos. Os Modelos de Linguagem Multimodal de Grande Escala (MLLMs) existentes para Compreensão Visual de Documentos são equipados com capacidade de reconhecimento de texto, mas carecem de habilidades gerais de compreensão estrutural para imagens de documentos ricos em texto. Neste trabalho, enfatizamos a importância da informação estrutural na Compreensão Visual de Documentos e propomos o Aprendizado Unificado de Estrutura para impulsionar o desempenho dos MLLMs. Nosso Aprendizado Unificado de Estrutura compreende tarefas de análise consciente da estrutura e tarefas de localização de texto multigranulares em 5 domínios: documento, página web, tabela, gráfico e imagem natural. Para codificar melhor a informação estrutural, projetamos um módulo simples e eficiente de visão para texto, o H-Reducer, que não apenas mantém a informação de layout, mas também reduz o comprimento das características visuais ao mesclar patches adjacentes horizontalmente por meio de convolução, permitindo que o LLM compreenda imagens de alta resolução de forma mais eficiente. Além disso, ao construir sequências de texto conscientes da estrutura e pares multigranulares de textos e caixas delimitadoras para imagens ricas em texto disponíveis publicamente, construímos um conjunto de treinamento abrangente, o DocStruct4M, para apoiar o aprendizado de estrutura. Por fim, construímos um pequeno, mas de alta qualidade, conjunto de dados de ajuste de raciocínio, o DocReason25K, para desencadear a capacidade de explicação detalhada no domínio de documentos. Nosso modelo, o DocOwl 1.5, alcança desempenho de ponta em 10 benchmarks de compreensão visual de documentos, melhorando o desempenho SOTA dos MLLMs com um LLM de 7B em mais de 10 pontos em 5/10 benchmarks. Nossos códigos, modelos e conjuntos de dados estão disponíveis publicamente em https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl1.5.
English
Structure information is critical for understanding the semantics of text-rich images, such as documents, tables, and charts. Existing Multimodal Large Language Models (MLLMs) for Visual Document Understanding are equipped with text recognition ability but lack general structure understanding abilities for text-rich document images. In this work, we emphasize the importance of structure information in Visual Document Understanding and propose the Unified Structure Learning to boost the performance of MLLMs. Our Unified Structure Learning comprises structure-aware parsing tasks and multi-grained text localization tasks across 5 domains: document, webpage, table, chart, and natural image. To better encode structure information, we design a simple and effective vision-to-text module H-Reducer, which can not only maintain the layout information but also reduce the length of visual features by merging horizontal adjacent patches through convolution, enabling the LLM to understand high-resolution images more efficiently. Furthermore, by constructing structure-aware text sequences and multi-grained pairs of texts and bounding boxes for publicly available text-rich images, we build a comprehensive training set DocStruct4M to support structure learning. Finally, we construct a small but high-quality reasoning tuning dataset DocReason25K to trigger the detailed explanation ability in the document domain. Our model DocOwl 1.5 achieves state-of-the-art performance on 10 visual document understanding benchmarks, improving the SOTA performance of MLLMs with a 7B LLM by more than 10 points in 5/10 benchmarks. Our codes, models, and datasets are publicly available at https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl1.5.
PDF328February 9, 2026