TextHawk: Explorando la percepción eficiente de grano fino en modelos de lenguaje multimodal de gran escala
TextHawk: Exploring Efficient Fine-Grained Perception of Multimodal Large Language Models
April 14, 2024
Autores: Ya-Qi Yu, Minghui Liao, Jihao Wu, Yongxin Liao, Xiaoyu Zheng, Wei Zeng
cs.AI
Resumen
Los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) han mostrado resultados impresionantes en diversas tareas multimodales. Sin embargo, la mayoría de los MLLMs existentes no están bien adaptados para tareas orientadas a documentos, las cuales requieren una percepción de imágenes detallada y compresión de información. En este artículo, presentamos TextHawk, un MLLM diseñado específicamente para tareas orientadas a documentos, mientras preserva las capacidades generales de los MLLMs. TextHawk tiene como objetivo explorar una percepción detallada eficiente mediante el diseño de cuatro componentes dedicados. En primer lugar, se propone un módulo de ReMuestreo y Reorganización (ReSA) para reducir la redundancia en los textos de los documentos y disminuir el costo computacional del MLLM. Exploramos la codificación de las posiciones de cada característica local mediante la presentación de Incrustaciones Posicionales Escalables (SPEs), que pueden preservar la escalabilidad de varios tamaños de imagen. Luego, se adopta una Red de Propuesta de Consultas (QPN) para inicializar dinámicamente las consultas entre diferentes subimágenes. Para mejorar aún más la capacidad de percepción visual detallada del MLLM, diseñamos un mecanismo de Atención Cruzada Multinivel (MLCA) que captura la estructura jerárquica y las relaciones semánticas de las imágenes de documentos. Además, creamos un nuevo conjunto de datos de ajuste por instrucciones para tareas orientadas a documentos enriqueciendo los datos multimodales de documentos con Gemini Pro. Realizamos experimentos exhaustivos en puntos de referencia generales y orientados a documentos para MLLMs, y demostramos que TextHawk supera a los métodos más avanzados, mostrando su efectividad y superioridad en la percepción detallada de documentos y en sus capacidades generales.
English
Multimodal Large Language Models (MLLMs) have shown impressive results on
various multimodal tasks. However, most existing MLLMs are not well suited for
document-oriented tasks, which require fine-grained image perception and
information compression. In this paper, we present TextHawk, a MLLM that is
specifically designed for document-oriented tasks, while preserving the general
capabilities of MLLMs. TextHawk is aimed to explore efficient fine-grained
perception by designing four dedicated components. Firstly, a ReSampling and
ReArrangement (ReSA) module is proposed to reduce the redundancy in the
document texts and lower the computational cost of the MLLM. We explore
encoding the positions of each local feature by presenting Scalable Positional
Embeddings (SPEs), which can preserve the scalability of various image sizes. A
Query Proposal Network (QPN) is then adopted to initialize the queries
dynamically among different sub-images. To further enhance the fine-grained
visual perceptual ability of the MLLM, we design a Multi-Level Cross-Attention
(MLCA) mechanism that captures the hierarchical structure and semantic
relations of document images. Furthermore, we create a new instruction-tuning
dataset for document-oriented tasks by enriching the multimodal document data
with Gemini Pro. We conduct extensive experiments on both general and
document-oriented MLLM benchmarks, and show that TextHawk outperforms the
state-of-the-art methods, demonstrating its effectiveness and superiority in
fine-grained document perception and general abilities.Summary
AI-Generated Summary