TextHawk: Onderzoek naar efficiënte fijnmazige perceptie van multimodale grote taalmodellen
TextHawk: Exploring Efficient Fine-Grained Perception of Multimodal Large Language Models
April 14, 2024
Auteurs: Ya-Qi Yu, Minghui Liao, Jihao Wu, Yongxin Liao, Xiaoyu Zheng, Wei Zeng
cs.AI
Samenvatting
Multimodale Large Language Models (MLLMs) hebben indrukwekkende resultaten laten zien bij diverse multimodale taken. De meeste bestaande MLLMs zijn echter niet goed geschikt voor documentgerichte taken, die fijnmazige beeldperceptie en informatiecompressie vereisen. In dit artikel presenteren we TextHawk, een MLLM die specifiek is ontworpen voor documentgerichte taken, terwijl de algemene capaciteiten van MLLMs behouden blijven. TextHawk is gericht op het verkennen van efficiënte fijnmazige perceptie door het ontwerpen van vier toegewijde componenten. Ten eerste wordt een ReSampling en ReArrangement (ReSA) module voorgesteld om de redundantie in de documentteksten te verminderen en de rekenkosten van de MLLM te verlagen. We onderzoeken het coderen van de posities van elk lokaal kenmerk door Scalable Positional Embeddings (SPEs) te presenteren, die de schaalbaarheid van verschillende beeldformaten kunnen behouden. Een Query Proposal Network (QPN) wordt vervolgens gebruikt om de queries dynamisch te initialiseren tussen verschillende sub-beelden. Om de fijnmazige visuele perceptuele vaardigheid van de MLLM verder te verbeteren, ontwerpen we een Multi-Level Cross-Attention (MLCA) mechanisme dat de hiërarchische structuur en semantische relaties van documentbeelden vastlegt. Bovendien creëren we een nieuwe instructie-afstemmingsdataset voor documentgerichte taken door multimodale documentgegevens te verrijken met Gemini Pro. We voeren uitgebreide experimenten uit op zowel algemene als documentgerichte MLLM benchmarks, en laten zien dat TextHawk de state-of-the-art methoden overtreft, wat de effectiviteit en superioriteit aantoont in fijnmazige documentperceptie en algemene vaardigheden.
English
Multimodal Large Language Models (MLLMs) have shown impressive results on
various multimodal tasks. However, most existing MLLMs are not well suited for
document-oriented tasks, which require fine-grained image perception and
information compression. In this paper, we present TextHawk, a MLLM that is
specifically designed for document-oriented tasks, while preserving the general
capabilities of MLLMs. TextHawk is aimed to explore efficient fine-grained
perception by designing four dedicated components. Firstly, a ReSampling and
ReArrangement (ReSA) module is proposed to reduce the redundancy in the
document texts and lower the computational cost of the MLLM. We explore
encoding the positions of each local feature by presenting Scalable Positional
Embeddings (SPEs), which can preserve the scalability of various image sizes. A
Query Proposal Network (QPN) is then adopted to initialize the queries
dynamically among different sub-images. To further enhance the fine-grained
visual perceptual ability of the MLLM, we design a Multi-Level Cross-Attention
(MLCA) mechanism that captures the hierarchical structure and semantic
relations of document images. Furthermore, we create a new instruction-tuning
dataset for document-oriented tasks by enriching the multimodal document data
with Gemini Pro. We conduct extensive experiments on both general and
document-oriented MLLM benchmarks, and show that TextHawk outperforms the
state-of-the-art methods, demonstrating its effectiveness and superiority in
fine-grained document perception and general abilities.