TextHawk: Erforschung der effizienten feinkörnigen Wahrnehmung multimodaler großer Sprachmodelle
TextHawk: Exploring Efficient Fine-Grained Perception of Multimodal Large Language Models
April 14, 2024
Autoren: Ya-Qi Yu, Minghui Liao, Jihao Wu, Yongxin Liao, Xiaoyu Zheng, Wei Zeng
cs.AI
Zusammenfassung
Multimodale Large Language Models (MLLMs) haben beeindruckende Ergebnisse bei verschiedenen multimodalen Aufgaben gezeigt. Die meisten bestehenden MLLMs sind jedoch nicht gut für dokumentenorientierte Aufgaben geeignet, die eine feingranulare Bildwahrnehmung und Informationskompression erfordern. In diesem Paper präsentieren wir TextHawk, ein MLLM, das speziell für dokumentenorientierte Aufgaben entwickelt wurde, während die allgemeinen Fähigkeiten von MLLMs erhalten bleiben. TextHawk zielt darauf ab, eine effiziente feingranulare Wahrnehmung zu erforschen, indem vier dedizierte Komponenten entworfen werden. Zunächst wird ein ReSampling and ReArrangement (ReSA)-Modul vorgeschlagen, um die Redundanz in den Dokumententexten zu reduzieren und die Rechenkosten des MLLMs zu senken. Wir erforschen die Kodierung der Positionen jedes lokalen Merkmals, indem Skalierbare Positionale Einbettungen (SPEs) präsentiert werden, die die Skalierbarkeit verschiedener Bildgrößen bewahren können. Ein Query Proposal Network (QPN) wird dann übernommen, um die Abfragen dynamisch zwischen verschiedenen Teilbildern zu initialisieren. Um die feingranulare visuelle Wahrnehmungsfähigkeit des MLLMs weiter zu verbessern, entwerfen wir einen Multi-Level Cross-Attention (MLCA)-Mechanismus, der die hierarchische Struktur und semantischen Beziehungen von Dokumentenbildern erfasst. Darüber hinaus erstellen wir einen neuen Anweisungsabstimmungs-Datensatz für dokumentenorientierte Aufgaben, indem wir die multimodalen Dokumentendaten mit Gemini Pro anreichern. Wir führen umfangreiche Experimente sowohl an allgemeinen als auch an dokumentenorientierten MLLM-Benchmarks durch und zeigen, dass TextHawk die State-of-the-Art-Methoden übertrifft, was seine Wirksamkeit und Überlegenheit bei der feingranularen Dokumentwahrnehmung und den allgemeinen Fähigkeiten demonstriert.
English
Multimodal Large Language Models (MLLMs) have shown impressive results on
various multimodal tasks. However, most existing MLLMs are not well suited for
document-oriented tasks, which require fine-grained image perception and
information compression. In this paper, we present TextHawk, a MLLM that is
specifically designed for document-oriented tasks, while preserving the general
capabilities of MLLMs. TextHawk is aimed to explore efficient fine-grained
perception by designing four dedicated components. Firstly, a ReSampling and
ReArrangement (ReSA) module is proposed to reduce the redundancy in the
document texts and lower the computational cost of the MLLM. We explore
encoding the positions of each local feature by presenting Scalable Positional
Embeddings (SPEs), which can preserve the scalability of various image sizes. A
Query Proposal Network (QPN) is then adopted to initialize the queries
dynamically among different sub-images. To further enhance the fine-grained
visual perceptual ability of the MLLM, we design a Multi-Level Cross-Attention
(MLCA) mechanism that captures the hierarchical structure and semantic
relations of document images. Furthermore, we create a new instruction-tuning
dataset for document-oriented tasks by enriching the multimodal document data
with Gemini Pro. We conduct extensive experiments on both general and
document-oriented MLLM benchmarks, and show that TextHawk outperforms the
state-of-the-art methods, demonstrating its effectiveness and superiority in
fine-grained document perception and general abilities.