TextHawk: Explorando a Percepção Eficiente de Detalhes em Modelos de Linguagem Multimodais de Grande Escala

Resumo

Modelos de Linguagem Multimodais de Grande Escala (MLLMs) têm demonstrado resultados impressionantes em diversas tarefas multimodais. No entanto, a maioria dos MLLMs existentes não é bem adequada para tarefas orientadas a documentos, que exigem percepção de imagem em nível detalhado e compressão de informações. Neste artigo, apresentamos o TextHawk, um MLLM especificamente projetado para tarefas orientadas a documentos, mantendo as capacidades gerais dos MLLMs. O TextHawk visa explorar a percepção detalhada eficiente por meio do design de quatro componentes dedicados. Primeiramente, um módulo de Reamostragem e Reorganização (ReSA) é proposto para reduzir a redundância nos textos dos documentos e diminuir o custo computacional do MLLM. Exploramos a codificação das posições de cada recurso local apresentando Codificações Posicionais Escaláveis (SPEs), que podem preservar a escalabilidade de vários tamanhos de imagem. Uma Rede de Proposta de Consultas (QPN) é então adotada para inicializar as consultas dinamicamente entre diferentes subimagens. Para aprimorar ainda mais a capacidade de percepção visual detalhada do MLLM, projetamos um mecanismo de Atenção Cruzada Multinível (MLCA) que captura a estrutura hierárquica e as relações semânticas das imagens de documentos. Além disso, criamos um novo conjunto de dados de ajuste de instruções para tarefas orientadas a documentos, enriquecendo os dados multimodais de documentos com o Gemini Pro. Realizamos extensos experimentos em benchmarks gerais e orientados a documentos para MLLMs, e mostramos que o TextHawk supera os métodos state-of-the-art, demonstrando sua eficácia e superioridade na percepção detalhada de documentos e em habilidades gerais.

English

Multimodal Large Language Models (MLLMs) have shown impressive results on various multimodal tasks. However, most existing MLLMs are not well suited for document-oriented tasks, which require fine-grained image perception and information compression. In this paper, we present TextHawk, a MLLM that is specifically designed for document-oriented tasks, while preserving the general capabilities of MLLMs. TextHawk is aimed to explore efficient fine-grained perception by designing four dedicated components. Firstly, a ReSampling and ReArrangement (ReSA) module is proposed to reduce the redundancy in the document texts and lower the computational cost of the MLLM. We explore encoding the positions of each local feature by presenting Scalable Positional Embeddings (SPEs), which can preserve the scalability of various image sizes. A Query Proposal Network (QPN) is then adopted to initialize the queries dynamically among different sub-images. To further enhance the fine-grained visual perceptual ability of the MLLM, we design a Multi-Level Cross-Attention (MLCA) mechanism that captures the hierarchical structure and semantic relations of document images. Furthermore, we create a new instruction-tuning dataset for document-oriented tasks by enriching the multimodal document data with Gemini Pro. We conduct extensive experiments on both general and document-oriented MLLM benchmarks, and show that TextHawk outperforms the state-of-the-art methods, demonstrating its effectiveness and superiority in fine-grained document perception and general abilities.

TextHawk: Explorando a Percepção Eficiente de Detalhes em Modelos de Linguagem Multimodais de Grande Escala

TextHawk: Exploring Efficient Fine-Grained Perception of Multimodal Large Language Models

Resumo

Support