TextHawk: Onderzoek naar efficiënte fijnmazige perceptie van multimodale grote taalmodellen

Samenvatting

Multimodale Large Language Models (MLLMs) hebben indrukwekkende resultaten laten zien bij diverse multimodale taken. De meeste bestaande MLLMs zijn echter niet goed geschikt voor documentgerichte taken, die fijnmazige beeldperceptie en informatiecompressie vereisen. In dit artikel presenteren we TextHawk, een MLLM die specifiek is ontworpen voor documentgerichte taken, terwijl de algemene capaciteiten van MLLMs behouden blijven. TextHawk is gericht op het verkennen van efficiënte fijnmazige perceptie door het ontwerpen van vier toegewijde componenten. Ten eerste wordt een ReSampling en ReArrangement (ReSA) module voorgesteld om de redundantie in de documentteksten te verminderen en de rekenkosten van de MLLM te verlagen. We onderzoeken het coderen van de posities van elk lokaal kenmerk door Scalable Positional Embeddings (SPEs) te presenteren, die de schaalbaarheid van verschillende beeldformaten kunnen behouden. Een Query Proposal Network (QPN) wordt vervolgens gebruikt om de queries dynamisch te initialiseren tussen verschillende sub-beelden. Om de fijnmazige visuele perceptuele vaardigheid van de MLLM verder te verbeteren, ontwerpen we een Multi-Level Cross-Attention (MLCA) mechanisme dat de hiërarchische structuur en semantische relaties van documentbeelden vastlegt. Bovendien creëren we een nieuwe instructie-afstemmingsdataset voor documentgerichte taken door multimodale documentgegevens te verrijken met Gemini Pro. We voeren uitgebreide experimenten uit op zowel algemene als documentgerichte MLLM benchmarks, en laten zien dat TextHawk de state-of-the-art methoden overtreft, wat de effectiviteit en superioriteit aantoont in fijnmazige documentperceptie en algemene vaardigheden.

English

Multimodal Large Language Models (MLLMs) have shown impressive results on various multimodal tasks. However, most existing MLLMs are not well suited for document-oriented tasks, which require fine-grained image perception and information compression. In this paper, we present TextHawk, a MLLM that is specifically designed for document-oriented tasks, while preserving the general capabilities of MLLMs. TextHawk is aimed to explore efficient fine-grained perception by designing four dedicated components. Firstly, a ReSampling and ReArrangement (ReSA) module is proposed to reduce the redundancy in the document texts and lower the computational cost of the MLLM. We explore encoding the positions of each local feature by presenting Scalable Positional Embeddings (SPEs), which can preserve the scalability of various image sizes. A Query Proposal Network (QPN) is then adopted to initialize the queries dynamically among different sub-images. To further enhance the fine-grained visual perceptual ability of the MLLM, we design a Multi-Level Cross-Attention (MLCA) mechanism that captures the hierarchical structure and semantic relations of document images. Furthermore, we create a new instruction-tuning dataset for document-oriented tasks by enriching the multimodal document data with Gemini Pro. We conduct extensive experiments on both general and document-oriented MLLM benchmarks, and show that TextHawk outperforms the state-of-the-art methods, demonstrating its effectiveness and superiority in fine-grained document perception and general abilities.

TextHawk: Onderzoek naar efficiënte fijnmazige perceptie van multimodale grote taalmodellen

TextHawk: Exploring Efficient Fine-Grained Perception of Multimodal Large Language Models

Samenvatting

Support