TextHawk: Explorando la percepción eficiente de grano fino en modelos de lenguaje multimodal de gran escala

Resumen

Los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) han mostrado resultados impresionantes en diversas tareas multimodales. Sin embargo, la mayoría de los MLLMs existentes no están bien adaptados para tareas orientadas a documentos, las cuales requieren una percepción de imágenes detallada y compresión de información. En este artículo, presentamos TextHawk, un MLLM diseñado específicamente para tareas orientadas a documentos, mientras preserva las capacidades generales de los MLLMs. TextHawk tiene como objetivo explorar una percepción detallada eficiente mediante el diseño de cuatro componentes dedicados. En primer lugar, se propone un módulo de ReMuestreo y Reorganización (ReSA) para reducir la redundancia en los textos de los documentos y disminuir el costo computacional del MLLM. Exploramos la codificación de las posiciones de cada característica local mediante la presentación de Incrustaciones Posicionales Escalables (SPEs), que pueden preservar la escalabilidad de varios tamaños de imagen. Luego, se adopta una Red de Propuesta de Consultas (QPN) para inicializar dinámicamente las consultas entre diferentes subimágenes. Para mejorar aún más la capacidad de percepción visual detallada del MLLM, diseñamos un mecanismo de Atención Cruzada Multinivel (MLCA) que captura la estructura jerárquica y las relaciones semánticas de las imágenes de documentos. Además, creamos un nuevo conjunto de datos de ajuste por instrucciones para tareas orientadas a documentos enriqueciendo los datos multimodales de documentos con Gemini Pro. Realizamos experimentos exhaustivos en puntos de referencia generales y orientados a documentos para MLLMs, y demostramos que TextHawk supera a los métodos más avanzados, mostrando su efectividad y superioridad en la percepción detallada de documentos y en sus capacidades generales.

English

Multimodal Large Language Models (MLLMs) have shown impressive results on various multimodal tasks. However, most existing MLLMs are not well suited for document-oriented tasks, which require fine-grained image perception and information compression. In this paper, we present TextHawk, a MLLM that is specifically designed for document-oriented tasks, while preserving the general capabilities of MLLMs. TextHawk is aimed to explore efficient fine-grained perception by designing four dedicated components. Firstly, a ReSampling and ReArrangement (ReSA) module is proposed to reduce the redundancy in the document texts and lower the computational cost of the MLLM. We explore encoding the positions of each local feature by presenting Scalable Positional Embeddings (SPEs), which can preserve the scalability of various image sizes. A Query Proposal Network (QPN) is then adopted to initialize the queries dynamically among different sub-images. To further enhance the fine-grained visual perceptual ability of the MLLM, we design a Multi-Level Cross-Attention (MLCA) mechanism that captures the hierarchical structure and semantic relations of document images. Furthermore, we create a new instruction-tuning dataset for document-oriented tasks by enriching the multimodal document data with Gemini Pro. We conduct extensive experiments on both general and document-oriented MLLM benchmarks, and show that TextHawk outperforms the state-of-the-art methods, demonstrating its effectiveness and superiority in fine-grained document perception and general abilities.

TextHawk: Explorando la percepción eficiente de grano fino en modelos de lenguaje multimodal de gran escala

TextHawk: Exploring Efficient Fine-Grained Perception of Multimodal Large Language Models

Resumen

Support