TextHawk: Erforschung der effizienten feinkörnigen Wahrnehmung multimodaler großer Sprachmodelle

TextHawk: Exploring Efficient Fine-Grained Perception of Multimodal Large Language Models

April 14, 2024
Autoren: Ya-Qi Yu, Minghui Liao, Jihao Wu, Yongxin Liao, Xiaoyu Zheng, Wei Zeng
cs.AI

Zusammenfassung

Multimodale Large Language Models (MLLMs) haben beeindruckende Ergebnisse bei verschiedenen multimodalen Aufgaben gezeigt. Die meisten bestehenden MLLMs sind jedoch nicht gut für dokumentenorientierte Aufgaben geeignet, die eine feingranulare Bildwahrnehmung und Informationskompression erfordern. In diesem Paper präsentieren wir TextHawk, ein MLLM, das speziell für dokumentenorientierte Aufgaben entwickelt wurde, während die allgemeinen Fähigkeiten von MLLMs erhalten bleiben. TextHawk zielt darauf ab, eine effiziente feingranulare Wahrnehmung zu erforschen, indem vier dedizierte Komponenten entworfen werden. Zunächst wird ein ReSampling and ReArrangement (ReSA)-Modul vorgeschlagen, um die Redundanz in den Dokumententexten zu reduzieren und die Rechenkosten des MLLMs zu senken. Wir erforschen die Kodierung der Positionen jedes lokalen Merkmals, indem Skalierbare Positionale Einbettungen (SPEs) präsentiert werden, die die Skalierbarkeit verschiedener Bildgrößen bewahren können. Ein Query Proposal Network (QPN) wird dann übernommen, um die Abfragen dynamisch zwischen verschiedenen Teilbildern zu initialisieren. Um die feingranulare visuelle Wahrnehmungsfähigkeit des MLLMs weiter zu verbessern, entwerfen wir einen Multi-Level Cross-Attention (MLCA)-Mechanismus, der die hierarchische Struktur und semantischen Beziehungen von Dokumentenbildern erfasst. Darüber hinaus erstellen wir einen neuen Anweisungsabstimmungs-Datensatz für dokumentenorientierte Aufgaben, indem wir die multimodalen Dokumentendaten mit Gemini Pro anreichern. Wir führen umfangreiche Experimente sowohl an allgemeinen als auch an dokumentenorientierten MLLM-Benchmarks durch und zeigen, dass TextHawk die State-of-the-Art-Methoden übertrifft, was seine Wirksamkeit und Überlegenheit bei der feingranularen Dokumentwahrnehmung und den allgemeinen Fähigkeiten demonstriert.
English
Multimodal Large Language Models (MLLMs) have shown impressive results on various multimodal tasks. However, most existing MLLMs are not well suited for document-oriented tasks, which require fine-grained image perception and information compression. In this paper, we present TextHawk, a MLLM that is specifically designed for document-oriented tasks, while preserving the general capabilities of MLLMs. TextHawk is aimed to explore efficient fine-grained perception by designing four dedicated components. Firstly, a ReSampling and ReArrangement (ReSA) module is proposed to reduce the redundancy in the document texts and lower the computational cost of the MLLM. We explore encoding the positions of each local feature by presenting Scalable Positional Embeddings (SPEs), which can preserve the scalability of various image sizes. A Query Proposal Network (QPN) is then adopted to initialize the queries dynamically among different sub-images. To further enhance the fine-grained visual perceptual ability of the MLLM, we design a Multi-Level Cross-Attention (MLCA) mechanism that captures the hierarchical structure and semantic relations of document images. Furthermore, we create a new instruction-tuning dataset for document-oriented tasks by enriching the multimodal document data with Gemini Pro. We conduct extensive experiments on both general and document-oriented MLLM benchmarks, and show that TextHawk outperforms the state-of-the-art methods, demonstrating its effectiveness and superiority in fine-grained document perception and general abilities.
PDF110December 15, 2024