TextHawk: Explorando a Percepção Eficiente de Detalhes em Modelos de Linguagem Multimodais de Grande Escala
TextHawk: Exploring Efficient Fine-Grained Perception of Multimodal Large Language Models
April 14, 2024
Autores: Ya-Qi Yu, Minghui Liao, Jihao Wu, Yongxin Liao, Xiaoyu Zheng, Wei Zeng
cs.AI
Resumo
Modelos de Linguagem Multimodais de Grande Escala (MLLMs) têm demonstrado resultados impressionantes em diversas tarefas multimodais. No entanto, a maioria dos MLLMs existentes não é bem adequada para tarefas orientadas a documentos, que exigem percepção de imagem em nível detalhado e compressão de informações. Neste artigo, apresentamos o TextHawk, um MLLM especificamente projetado para tarefas orientadas a documentos, mantendo as capacidades gerais dos MLLMs. O TextHawk visa explorar a percepção detalhada eficiente por meio do design de quatro componentes dedicados. Primeiramente, um módulo de Reamostragem e Reorganização (ReSA) é proposto para reduzir a redundância nos textos dos documentos e diminuir o custo computacional do MLLM. Exploramos a codificação das posições de cada recurso local apresentando Codificações Posicionais Escaláveis (SPEs), que podem preservar a escalabilidade de vários tamanhos de imagem. Uma Rede de Proposta de Consultas (QPN) é então adotada para inicializar as consultas dinamicamente entre diferentes subimagens. Para aprimorar ainda mais a capacidade de percepção visual detalhada do MLLM, projetamos um mecanismo de Atenção Cruzada Multinível (MLCA) que captura a estrutura hierárquica e as relações semânticas das imagens de documentos. Além disso, criamos um novo conjunto de dados de ajuste de instruções para tarefas orientadas a documentos, enriquecendo os dados multimodais de documentos com o Gemini Pro. Realizamos extensos experimentos em benchmarks gerais e orientados a documentos para MLLMs, e mostramos que o TextHawk supera os métodos state-of-the-art, demonstrando sua eficácia e superioridade na percepção detalhada de documentos e em habilidades gerais.
English
Multimodal Large Language Models (MLLMs) have shown impressive results on
various multimodal tasks. However, most existing MLLMs are not well suited for
document-oriented tasks, which require fine-grained image perception and
information compression. In this paper, we present TextHawk, a MLLM that is
specifically designed for document-oriented tasks, while preserving the general
capabilities of MLLMs. TextHawk is aimed to explore efficient fine-grained
perception by designing four dedicated components. Firstly, a ReSampling and
ReArrangement (ReSA) module is proposed to reduce the redundancy in the
document texts and lower the computational cost of the MLLM. We explore
encoding the positions of each local feature by presenting Scalable Positional
Embeddings (SPEs), which can preserve the scalability of various image sizes. A
Query Proposal Network (QPN) is then adopted to initialize the queries
dynamically among different sub-images. To further enhance the fine-grained
visual perceptual ability of the MLLM, we design a Multi-Level Cross-Attention
(MLCA) mechanism that captures the hierarchical structure and semantic
relations of document images. Furthermore, we create a new instruction-tuning
dataset for document-oriented tasks by enriching the multimodal document data
with Gemini Pro. We conduct extensive experiments on both general and
document-oriented MLLM benchmarks, and show that TextHawk outperforms the
state-of-the-art methods, demonstrating its effectiveness and superiority in
fine-grained document perception and general abilities.