TextHawk: 다중모달 대규모 언어 모델의 효율적인 세밀한 인식 탐구
TextHawk: Exploring Efficient Fine-Grained Perception of Multimodal Large Language Models
April 14, 2024
저자: Ya-Qi Yu, Minghui Liao, Jihao Wu, Yongxin Liao, Xiaoyu Zheng, Wei Zeng
cs.AI
초록
멀티모달 대형 언어 모델(MLLM)은 다양한 멀티모달 작업에서 인상적인 성과를 보여왔습니다. 그러나 기존의 대부분 MLLM은 세밀한 이미지 인식과 정보 압축이 필요한 문서 지향 작업에는 적합하지 않습니다. 본 논문에서는 문서 지향 작업에 특화된 동시에 MLLM의 일반적인 기능을 유지하는 TextHawk를 소개합니다. TextHawk는 네 가지 전용 구성 요소를 설계하여 효율적인 세밀한 인식을 탐구하는 것을 목표로 합니다. 첫째, 문서 텍스트의 중복성을 줄이고 MLLM의 계산 비용을 낮추기 위해 ReSampling and ReArrangement (ReSA) 모듈을 제안합니다. 다양한 이미지 크기의 확장성을 유지할 수 있는 Scalable Positional Embeddings (SPE)를 제시하여 각 로컬 특징의 위치를 인코딩하는 방법을 탐구합니다. 다음으로, Query Proposal Network (QPN)를 도입하여 서로 다른 하위 이미지 간에 동적으로 쿼리를 초기화합니다. MLLM의 세밀한 시각적 인식 능력을 더욱 강화하기 위해, 문서 이미지의 계층적 구조와 의미적 관계를 포착하는 Multi-Level Cross-Attention (MLCA) 메커니즘을 설계합니다. 또한, Gemini Pro를 활용하여 멀티모달 문서 데이터를 풍부하게 하여 문서 지향 작업을 위한 새로운 지시 튜닝 데이터셋을 생성합니다. 일반 및 문서 지향 MLLM 벤치마크에서 광범위한 실험을 수행한 결과, TextHawk가 최신 방법들을 능가하며 세밀한 문서 인식과 일반적인 능력에서의 효과성과 우수성을 입증합니다.
English
Multimodal Large Language Models (MLLMs) have shown impressive results on
various multimodal tasks. However, most existing MLLMs are not well suited for
document-oriented tasks, which require fine-grained image perception and
information compression. In this paper, we present TextHawk, a MLLM that is
specifically designed for document-oriented tasks, while preserving the general
capabilities of MLLMs. TextHawk is aimed to explore efficient fine-grained
perception by designing four dedicated components. Firstly, a ReSampling and
ReArrangement (ReSA) module is proposed to reduce the redundancy in the
document texts and lower the computational cost of the MLLM. We explore
encoding the positions of each local feature by presenting Scalable Positional
Embeddings (SPEs), which can preserve the scalability of various image sizes. A
Query Proposal Network (QPN) is then adopted to initialize the queries
dynamically among different sub-images. To further enhance the fine-grained
visual perceptual ability of the MLLM, we design a Multi-Level Cross-Attention
(MLCA) mechanism that captures the hierarchical structure and semantic
relations of document images. Furthermore, we create a new instruction-tuning
dataset for document-oriented tasks by enriching the multimodal document data
with Gemini Pro. We conduct extensive experiments on both general and
document-oriented MLLM benchmarks, and show that TextHawk outperforms the
state-of-the-art methods, demonstrating its effectiveness and superiority in
fine-grained document perception and general abilities.Summary
AI-Generated Summary